一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

SWE-bench Verified 是評估編碼代理的黃金標準：500 個真實世界的問題 + OpenAI 的測試。聽起來無懈可擊？其實不然。我們展示了通過單元測試不等於匹配真實情況。在我們的 ACL 論文中，我們修正了有缺陷的評估：24% 的代理在排行榜上上升或下降了！ 1/7

範例：django PR-13933。代理修復了一個錯誤訊息，但默默地破壞了正常執行。所有測試都通過，但該補丁在生產環境中會崩潰。 3/7

為了解決SWE-bench中測試案例不足的問題，我們開發了UTBoost，一個基於LLM的全規模Python項目的測試案例生成器。在底層，UTBoost首先以細粒度的方式定位相關代碼（文件級別 -> 函數級別 -> 行級別），然後自動生成pytest風格的測試。 4/7

根據生成的測試案例，我們驗證了它們的正確性，並重新評估了目前在 SWE-bench Lite 和 Verified 的排行榜上的代理： - SWE-bench Lite：捕獲的錯誤補丁增加了 28.4% - SWE-bench Verified：增加了 15.7% - 排名變化 40.9%（Lite）和 24.4%（Verified） 5/7

課程：測試很困難，當 AI 寫代碼時更是如此。基準必須隨著更強大、持續增長的測試套件而演變。我們希望 UTBoost 是邁向更可靠評估的一步。 6/7

這是與 @BoshCavendish、@maxYuxuanZhu 和 @PinjiaHE 的合作 7/7

24.85K