SWE-bench Verified 是评估编码代理的黄金标准:500 个真实世界问题 + OpenAI 的测试。听起来无懈可击?其实并非如此。 我们展示了通过单元测试并不等于与真实结果相匹配。在我们的 ACL 论文中,我们修复了有缺陷的评估:24% 的代理在排行榜上上升或下降了! 1/7
示例:django PR-13933。代理修复了一个错误消息,但默默地破坏了正常执行。所有测试都通过了,而补丁在生产环境中会崩溃。 3/7
为了应对SWE-bench中测试用例不足的问题,我们开发了UTBoost,这是一种基于LLM的全规模Python项目测试用例生成器。在内部,UTBoost首先以细粒度的方式定位相关代码(文件级 -> 函数级 -> 行级),然后自动生成pytest风格的测试。 4/7
根据生成的测试用例,我们验证了它们的正确性,并在当前的SWE-bench Lite和Verified排行榜上重新评估了代理: - SWE-bench Lite:捕获的错误补丁增加了28.4% - SWE-bench Verified:增加了15.7% - 排名变化40.9%(Lite)和24.4%(Verified) 5/7
课程:测试很困难,当 AI 编写代码时更是如此。基准测试必须随着更强大、不断增长的套件而发展。我们希望 UTBoost 是朝着更可靠评估迈出的一步。 6/7
这是与 @BoshCavendish, @maxYuxuanZhu 和 @PinjiaHE 的合作 7/7
24.84K