一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

🚨突發消息：阿里巴巴在100個真實代碼庫上測試了AI編碼代理，持續了233天。這些代理的表現非常糟糕。結果發現，通過測試一次很簡單。維護代碼8個月而不破壞一切才是AI崩潰的地方。 SWE-CI是第一個衡量長期代碼維護的基準，而不是一次性的錯誤修復。每個任務追蹤71次連續的真實演變提交。 75%的AI模型在維護過程中會破壞之前正常工作的代碼。只有Claude Opus 4的零回歸率保持在50%以上。其他模型在迭代過程中累積的技術負債不斷增加。這裡是殘酷的部分： - HumanEval和SWE-bench測量的是「現在是否能正常工作」 - SWE-CI測量的是「在6個月的變更後是否仍然能正常工作」針對快照測試進行優化的代理編寫的代碼脆弱，今天通過測試，但明天變得無法維護。阿里巴巴建立了EvoScore，以使後期迭代的權重高於早期迭代。那些為了快速獲利而犧牲代碼質量的代理在後果累積時會受到懲罰。 AI編碼的敘事變得更加誠實：大多數模型可以編寫代碼，幾乎沒有模型能夠維護它。