分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

🚨速報:アリババは100の実際のコードベースでAIコーディングエージェントを233日間にわたってテストしました。エージェントたちは見事に失敗した。一度のテストに合格するのは簡単だとわかりました。8ヶ月間コードを壊さずに維持することがAIの崩壊点です。 SWE-CIは、一時的なバグ修正ではなく、長期的なコード保守を測定する初のベンチマークです。各タスクは71回連続した実際の進化コミットを追跡します。 AIモデルの75%はメンテナンス中に以前に動作していたコードを壊します。クロード作品4だけが50%を超えるゼロ回帰率を維持しています。他のすべてのモデルは技術的負債を蓄積し、反復を重ねるごとに複利的に増えていきます。ここが残酷な部分です: - HumanEvalとSWEベンチの指標「今は効果があるか」 - SWE-CIの「6か月の変更後も機能するかどうか」の指標スナップショットテストに最適化されたエージェントは、今日はテストに合格しても明日には保守不可能になる脆弱なコードを書いています。アリババは後のバージョンを初期よりも重く重くするためにEvoScoreを構築しました。コードの質を犠牲にして素早い勝利を収めるエージェントは、結果が重なることで罰せられます。 AIコーディングの物語はより正直になりました。ほとんどのモデルはコードを書くことができます。ほとんど誰もそれを維持できません。

トップ

ランキング

お気に入り