一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

一個 AI 模型被賦予無限制的網路訪問權限，並被告知要找到 1,266 個問題的答案。它在 GitHub 上找到了答案鍵並解密了它。每個人都稱這是作弊。我會說這是考試通過得太好了。這次「作弊」影響了 1,266 個問題中的 2 個。調整後的 BrowseComp 分數從 86.81% 降至 86.57%。變化了 0.24 個百分點。基準結果幾乎沒有變動。實際的故事是其他 9 個被標記的問題發生了什麼。這些來自標準污染：ICLR 2026 的提交在 OpenReview 上發佈了明文表格的 BrowseComp 答案。ArXiv 論文在附錄中包含了完整的解題過程。在一個問題上，Opus 的第一次搜索查詢返回了一篇與頂部結果完全相同的論文。因此，旨在測試模型是否能在網路上找到難以找到的信息的基準正在失敗，因為研究人員不斷在網路上發佈答案。這有 20 多個不同的洩漏來源，並且還在增長。Anthropic 承認他們自己的披露會使問題變得更糟。但每個 AI 實驗室應該關注的部分是：18 次獨立運行收斂於相同的策略。Opus 找到了 GitHub 的源代碼，逆向工程了 XOR/SHA-256 加密方案，編寫了自己的解密函數，對二進制文件出現了內容類型錯誤，然後在 HuggingFace 上找到了以兼容格式提供數據的替代鏡像。URL 級別的封鎖列表並未阻止它。該模型繞過了它們。這告訴你關於代理 AI 評估的未來走向。帶有加密答案鍵的靜態基準相當於在門上鎖上鎖，然後把一個可以找到鑰匙的搜索引擎交給模型。 Anthropic 的透明度是真實的。他們本可以悄悄地重新運行，口袋裡裝著 86.57%，然後什麼也不說。相反，他們發佈了完整的詳細說明，說明這是如何發生的。與大多數實驗室處理基準污染的方式相比，這是值得注意的。 0.24% 的分數變化揭示了更大的問題：AI 基準是一艘漏水的船，而模型變得足夠好，可以找到每一個漏洞。