一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

SWE-bench Verified 是评估编码代理的黄金标准：500 个真实世界问题 + OpenAI 的测试。听起来无懈可击？其实并非如此。我们展示了通过单元测试并不等于与真实结果相匹配。在我们的 ACL 论文中，我们修复了有缺陷的评估：24% 的代理在排行榜上上升或下降了！ 1/7

示例：django PR-13933。代理修复了一个错误消息，但默默地破坏了正常执行。所有测试都通过了，而补丁在生产环境中会崩溃。 3/7

为了应对SWE-bench中测试用例不足的问题，我们开发了UTBoost，这是一种基于LLM的全规模Python项目测试用例生成器。在内部，UTBoost首先以细粒度的方式定位相关代码（文件级 -> 函数级 -> 行级），然后自动生成pytest风格的测试。 4/7

根据生成的测试用例，我们验证了它们的正确性，并在当前的SWE-bench Lite和Verified排行榜上重新评估了代理： - SWE-bench Lite：捕获的错误补丁增加了28.4% - SWE-bench Verified：增加了15.7% - 排名变化40.9%（Lite）和24.4%（Verified） 5/7

课程：测试很困难，当 AI 编写代码时更是如此。基准测试必须随着更强大、不断增长的套件而发展。我们希望 UTBoost 是朝着更可靠评估迈出的一步。 6/7

这是与 @BoshCavendish, @maxYuxuanZhu 和 @PinjiaHE 的合作 7/7

24.84K