SWE-bench Verified 是評估編碼代理的黃金標準:500 個真實世界的問題 + OpenAI 的測試。聽起來無懈可擊?其實不然。 我們展示了通過單元測試不等於匹配真實情況。在我們的 ACL 論文中,我們修正了有缺陷的評估:24% 的代理在排行榜上上升或下降了! 1/7
範例:django PR-13933。代理修復了一個錯誤訊息,但默默地破壞了正常執行。所有測試都通過,但該補丁在生產環境中會崩潰。 3/7
為了解決SWE-bench中測試案例不足的問題,我們開發了UTBoost,一個基於LLM的全規模Python項目的測試案例生成器。在底層,UTBoost首先以細粒度的方式定位相關代碼(文件級別 -> 函數級別 -> 行級別),然後自動生成pytest風格的測試。 4/7
根據生成的測試案例,我們驗證了它們的正確性,並重新評估了目前在 SWE-bench Lite 和 Verified 的排行榜上的代理: - SWE-bench Lite:捕獲的錯誤補丁增加了 28.4% - SWE-bench Verified:增加了 15.7% - 排名變化 40.9%(Lite)和 24.4%(Verified) 5/7
課程:測試很困難,當 AI 寫代碼時更是如此。基準必須隨著更強大、持續增長的測試套件而演變。我們希望 UTBoost 是邁向更可靠評估的一步。 6/7
這是與 @BoshCavendish、@maxYuxuanZhu 和 @PinjiaHE 的合作 7/7
24.85K