熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
SWE-bench Verified 是評估編碼代理的黃金標準:500 個真實世界的問題 + OpenAI 的測試。聽起來無懈可擊?其實不然。
我們展示了通過單元測試不等於匹配真實情況。在我們的 ACL 論文中,我們修正了有缺陷的評估:24% 的代理在排行榜上上升或下降了!
1/7

範例:django PR-13933。代理修復了一個錯誤訊息,但默默地破壞了正常執行。所有測試都通過,但該補丁在生產環境中會崩潰。
3/7

為了解決SWE-bench中測試案例不足的問題,我們開發了UTBoost,一個基於LLM的全規模Python項目的測試案例生成器。在底層,UTBoost首先以細粒度的方式定位相關代碼(文件級別 -> 函數級別 -> 行級別),然後自動生成pytest風格的測試。
4/7
根據生成的測試案例,我們驗證了它們的正確性,並重新評估了目前在 SWE-bench Lite 和 Verified 的排行榜上的代理:
- SWE-bench Lite:捕獲的錯誤補丁增加了 28.4%
- SWE-bench Verified:增加了 15.7%
- 排名變化 40.9%(Lite)和 24.4%(Verified)
5/7
課程:測試很困難,當 AI 寫代碼時更是如此。基準必須隨著更強大、持續增長的測試套件而演變。我們希望 UTBoost 是邁向更可靠評估的一步。
6/7
這是與 @BoshCavendish、@maxYuxuanZhu 和 @PinjiaHE 的合作
7/7
24.85K
熱門
排行
收藏