Saya ingin menunjukkan bahwa untuk tugas dunia nyata (bukan tolok ukur), Kimi K2 mengungguli Gemini. Ini adalah telemetri di semua pengguna @cline, menunjukkan tingkat kegagalan suntingan diff. Perhatikan bagaimana Kimi memiliki tingkat kegagalan sekitar 6%, yang secara signifikan lebih baik daripada tingkat kesalahan ~ 10% Gemini. Hebatnya, Kimi bahkan melampaui Claude 4 untuk sebagian besar minggu ini, mencapai tingkat kegagalan di bawah 4%!
Paul Gauthier
Paul Gauthier18 Jul, 19.09
Kimi K2 mencetak 59% pada tolok ukur pengkodean poliglot aider. Papan peringkat penuh:
Dalam tolok ukur pengeditan diff "Hard" internal kami untuk kasus di mana model frontier sebelumnya gagal dalam suntingan diff (sebelum pembaruan algoritma diff kami), Kimi melampaui Claude 3.5. Akan menarik untuk melihat hasil dari tolok ukur "Kesulitan Mimpi Buruk" kami dalam beberapa minggu ke depan.
160,68K