Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Saya ingin menunjukkan bahwa untuk tugas dunia nyata (bukan tolok ukur), Kimi K2 mengungguli Gemini.
Ini adalah telemetri di semua pengguna @cline, menunjukkan tingkat kegagalan suntingan diff. Perhatikan bagaimana Kimi memiliki tingkat kegagalan sekitar 6%, yang secara signifikan lebih baik daripada tingkat kesalahan ~ 10% Gemini.
Hebatnya, Kimi bahkan melampaui Claude 4 untuk sebagian besar minggu ini, mencapai tingkat kegagalan di bawah 4%!

Dalam tolok ukur pengeditan diff "Hard" internal kami untuk kasus di mana model frontier sebelumnya gagal dalam suntingan diff (sebelum pembaruan algoritma diff kami), Kimi melampaui Claude 3.5.
Akan menarik untuk melihat hasil dari tolok ukur "Kesulitan Mimpi Buruk" kami dalam beberapa minggu ke depan.

160,68K
Teratas
Peringkat
Favorit