トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨速報:アリババは100の実際のコードベースでAIコーディングエージェントを233日間にわたってテストしました。
エージェントたちは見事に失敗した。
一度のテストに合格するのは簡単だとわかりました。8ヶ月間コードを壊さずに維持することがAIの崩壊点です。
SWE-CIは、一時的なバグ修正ではなく、長期的なコード保守を測定する初のベンチマークです。
各タスクは71回連続した実際の進化コミットを追跡します。
AIモデルの75%はメンテナンス中に以前に動作していたコードを壊します。
クロード作品4だけが50%を超えるゼロ回帰率を維持しています。他のすべてのモデルは技術的負債を蓄積し、反復を重ねるごとに複利的に増えていきます。
ここが残酷な部分です:
- HumanEvalとSWEベンチの指標「今は効果があるか」
- SWE-CIの「6か月の変更後も機能するかどうか」の指標
スナップショットテストに最適化されたエージェントは、今日はテストに合格しても明日には保守不可能になる脆弱なコードを書いています。
アリババは後のバージョンを初期よりも重く重くするためにEvoScoreを構築しました。コードの質を犠牲にして素早い勝利を収めるエージェントは、結果が重なることで罰せられます。
AIコーディングの物語はより正直になりました。ほとんどのモデルはコードを書くことができます。ほとんど誰もそれを維持できません。

トップ
ランキング
お気に入り
