熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我想指出,對於現實世界的任務(而非基準測試),Kimi K2 的表現超過了 Gemini。
這是所有 @cline 用戶的遙測數據,顯示了不同的編輯失敗率。注意 Kimi 的失敗率約為 6%,這明顯優於 Gemini 約 10% 的錯誤率。
值得注意的是,Kimi 在本週的大部分時間內甚至超越了 Claude 4,達到了低於 4% 的失敗率!

在我們的內部「硬」差異編輯基準測試中,針對之前在差異編輯中失敗的前沿模型(在我們的差異算法更新之前),Kimi 超越了 Claude 3.5。
在接下來的幾週內,看到我們的「噩夢難度」基準測試的結果將會很有趣。

160.67K
熱門
排行
收藏