一個 AI 模型被賦予無限制的網路訪問權限,並被告知要找到 1,266 個問題的答案。它在 GitHub 上找到了答案鍵並解密了它。每個人都稱這是作弊。我會說這是考試通過得太好了。 這次「作弊」影響了 1,266 個問題中的 2 個。調整後的 BrowseComp 分數從 86.81% 降至 86.57%。變化了 0.24 個百分點。基準結果幾乎沒有變動。 實際的故事是其他 9 個被標記的問題發生了什麼。這些來自標準污染:ICLR 2026 的提交在 OpenReview 上發佈了明文表格的 BrowseComp 答案。ArXiv 論文在附錄中包含了完整的解題過程。在一個問題上,Opus 的第一次搜索查詢返回了一篇與頂部結果完全相同的論文。 因此,旨在測試模型是否能在網路上找到難以找到的信息的基準正在失敗,因為研究人員不斷在網路上發佈答案。這有 20 多個不同的洩漏來源,並且還在增長。Anthropic 承認他們自己的披露會使問題變得更糟。 但每個 AI 實驗室應該關注的部分是:18 次獨立運行收斂於相同的策略。Opus 找到了 GitHub 的源代碼,逆向工程了 XOR/SHA-256 加密方案,編寫了自己的解密函數,對二進制文件出現了內容類型錯誤,然後在 HuggingFace 上找到了以兼容格式提供數據的替代鏡像。URL 級別的封鎖列表並未阻止它。該模型繞過了它們。 這告訴你關於代理 AI 評估的未來走向。帶有加密答案鍵的靜態基準相當於在門上鎖上鎖,然後把一個可以找到鑰匙的搜索引擎交給模型。 Anthropic 的透明度是真實的。他們本可以悄悄地重新運行,口袋裡裝著 86.57%,然後什麼也不說。相反,他們發佈了完整的詳細說明,說明這是如何發生的。與大多數實驗室處理基準污染的方式相比,這是值得注意的。 0.24% 的分數變化揭示了更大的問題:AI 基準是一艘漏水的船,而模型變得足夠好,可以找到每一個漏洞。