🚨速報:アリババは100の実際のコードベースでAIコーディングエージェントを233日間にわたってテストしました。 エージェントたちは見事に失敗した。 一度のテストに合格するのは簡単だとわかりました。8ヶ月間コードを壊さずに維持することがAIの崩壊点です。 SWE-CIは、一時的なバグ修正ではなく、長期的なコード保守を測定する初のベンチマークです。 各タスクは71回連続した実際の進化コミットを追跡します。 AIモデルの75%はメンテナンス中に以前に動作していたコードを壊します。 クロード作品4だけが50%を超えるゼロ回帰率を維持しています。他のすべてのモデルは技術的負債を蓄積し、反復を重ねるごとに複利的に増えていきます。 ここが残酷な部分です: - HumanEvalとSWEベンチの指標「今は効果があるか」 - SWE-CIの「6か月の変更後も機能するかどうか」の指標 スナップショットテストに最適化されたエージェントは、今日はテストに合格しても明日には保守不可能になる脆弱なコードを書いています。 アリババは後のバージョンを初期よりも重く重くするためにEvoScoreを構築しました。コードの質を犠牲にして素早い勝利を収めるエージェントは、結果が重なることで罰せられます。 AIコーディングの物語はより正直になりました。ほとんどのモデルはコードを書くことができます。ほとんど誰もそれを維持できません。