トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
実際のタスク (ベンチマークではない) では、Kimi K2 が Gemini を上回っていることを指摘したいと思います。
これは、すべての@clineユーザーのテレメトリであり、差分編集の失敗率を示しています。Kimi の失敗率は約 6% で、Gemini の ~ 10% のエラー率よりも大幅に優れていることに注目してください。
驚くべきことに、Kimi は今週のほとんどの時間で Claude 4 を上回り、失敗率は 4% 未満を達成しました。

フロンティアモデルが以前に差分編集に失敗した場合(差分アルゴリズムの更新前)の内部「ハード」差分編集ベンチマークでは、KimiがClaude 3.5を上回りました。
今後数週間以内に「悪夢の難易度」ベンチマークの結果を見るのは興味深いでしょう。

160.67K
トップ
ランキング
お気に入り