🚨突發消息:阿里巴巴在100個真實代碼庫上測試了AI編碼代理,持續了233天。 這些代理的表現非常糟糕。 結果發現,通過測試一次很簡單。維護代碼8個月而不破壞一切才是AI崩潰的地方。 SWE-CI是第一個衡量長期代碼維護的基準,而不是一次性的錯誤修復。 每個任務追蹤71次連續的真實演變提交。 75%的AI模型在維護過程中會破壞之前正常工作的代碼。 只有Claude Opus 4的零回歸率保持在50%以上。其他模型在迭代過程中累積的技術負債不斷增加。 這裡是殘酷的部分: - HumanEval和SWE-bench測量的是「現在是否能正常工作」 - SWE-CI測量的是「在6個月的變更後是否仍然能正常工作」 針對快照測試進行優化的代理編寫的代碼脆弱,今天通過測試,但明天變得無法維護。 阿里巴巴建立了EvoScore,以使後期迭代的權重高於早期迭代。那些為了快速獲利而犧牲代碼質量的代理在後果累積時會受到懲罰。 AI編碼的敘事變得更加誠實:大多數模型可以編寫代碼,幾乎沒有模型能夠維護它。