実際のタスク (ベンチマークではない) では、Kimi K2 が Gemini を上回っていることを指摘したいと思います。 これは、すべての@clineユーザーのテレメトリであり、差分編集の失敗率を示しています。Kimi の失敗率は約 6% で、Gemini の ~ 10% のエラー率よりも大幅に優れていることに注目してください。 驚くべきことに、Kimi は今週のほとんどの時間で Claude 4 を上回り、失敗率は 4% 未満を達成しました。
Paul Gauthier
Paul Gauthier7月18日 19:09
Kimi K2 は、aider 多言語コーディング ベンチマークで 59% のスコアを獲得しました。 完全なリーダーボード:
フロンティアモデルが以前に差分編集に失敗した場合(差分アルゴリズムの更新前)の内部「ハード」差分編集ベンチマークでは、KimiがClaude 3.5を上回りました。 今後数週間以内に「悪夢の難易度」ベンチマークの結果を見るのは興味深いでしょう。
160.67K