熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🚨突發消息:阿里巴巴在100個真實代碼庫上測試了AI編碼代理,持續了233天。
這些代理的表現非常糟糕。
結果發現,通過測試一次很簡單。維護代碼8個月而不破壞一切才是AI崩潰的地方。
SWE-CI是第一個衡量長期代碼維護的基準,而不是一次性的錯誤修復。
每個任務追蹤71次連續的真實演變提交。
75%的AI模型在維護過程中會破壞之前正常工作的代碼。
只有Claude Opus 4的零回歸率保持在50%以上。其他模型在迭代過程中累積的技術負債不斷增加。
這裡是殘酷的部分:
- HumanEval和SWE-bench測量的是「現在是否能正常工作」
- SWE-CI測量的是「在6個月的變更後是否仍然能正常工作」
針對快照測試進行優化的代理編寫的代碼脆弱,今天通過測試,但明天變得無法維護。
阿里巴巴建立了EvoScore,以使後期迭代的權重高於早期迭代。那些為了快速獲利而犧牲代碼質量的代理在後果累積時會受到懲罰。
AI編碼的敘事變得更加誠實:大多數模型可以編寫代碼,幾乎沒有模型能夠維護它。

熱門
排行
收藏
