一个AI模型被赋予无限制的网络访问权限,并被告知要找到1266个问题的答案。它在GitHub上找到了答案密钥并进行了解密。大家都称这为作弊。我会称之为考试通过得太好了。 这次“作弊”影响了1266个问题中的2个。调整后的BrowseComp分数从86.81%下降到86.57%。变化为0.24个百分点。基准结果几乎没有变化。 实际故事是关于其他9个被标记的问题。那些来自标准污染:ICLR 2026的提交在OpenReview上发布了明文表格的BrowseComp答案。ArXiv论文在附录中包含了完整的解决方案轨迹。在一个问题上,Opus的第一次搜索查询返回了一篇论文,顶级结果正好是答案。 因此,旨在测试模型是否能够在网上找到难以找到的信息的基准正在失败,因为研究人员不断在网上发布答案。这是20多个不同的泄漏来源,并且还在增加。Anthropic承认他们自己的披露将使问题变得更糟。 但每个AI实验室都应该关注的部分是:18次独立运行收敛于相同的策略。Opus找到了GitHub源代码,逆向工程了XOR/SHA-256加密方案,编写了自己的解密函数,在二进制文件上遇到了内容类型错误,然后在HuggingFace上找到了一个以兼容格式提供数据的替代镜像。URL级别的阻止列表并没有阻止它。模型绕过了这些阻止。 这告诉你关于代理AI评估的未来走向。带有加密答案密钥的静态基准相当于在门上锁上并给模型一个可以找到钥匙的搜索引擎。 Anthropic的透明度是真实的。他们本可以悄悄地重新运行,口袋里装着86.57%,然后什么也不说。相反,他们发布了详细的分解,准确说明了事情是如何发生的。与大多数实验室处理基准污染的方式相比,这种做法显得格外不同。 0.24%的分数变化揭示了更大的问题:AI基准是一艘漏水的船,而模型变得足够优秀,可以找到每一个漏洞。