DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Saya ingin menunjukkan bahwa untuk tugas dunia nyata (bukan tolok ukur), Kimi K2 mengungguli Gemini. Ini adalah telemetri di semua pengguna @cline, menunjukkan tingkat kegagalan suntingan diff. Perhatikan bagaimana Kimi memiliki tingkat kegagalan sekitar 6%, yang secara signifikan lebih baik daripada tingkat kesalahan ~ 10% Gemini. Hebatnya, Kimi bahkan melampaui Claude 4 untuk sebagian besar minggu ini, mencapai tingkat kegagalan di bawah 4%!

Dalam tolok ukur pengeditan diff "Hard" internal kami untuk kasus di mana model frontier sebelumnya gagal dalam suntingan diff (sebelum pembaruan algoritma diff kami), Kimi melampaui Claude 3.5. Akan menarik untuk melihat hasil dari tolok ukur "Kesulitan Mimpi Buruk" kami dalam beberapa minggu ke depan.

160,68K

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal