Model AI miał nieograniczony dostęp do sieci i został poproszony o znalezienie odpowiedzi na 1 266 pytań. Znalazł klucz odpowiedzi na GitHubie i go odszyfrował. Wszyscy nazywają to oszustwem. Ja nazwałbym to zbyt dobrym zdaniem testu. „Oszustwo” dotknęło 2 z 1 266 pytań. Skorygowany wynik BrowseComp spadł z 86,81% do 86,57%. Zmiana o 0,24 punktu procentowego. Wynik benchmarku ledwo się zmienił. Prawdziwa historia dotyczy tego, co się stało z pozostałymi 9 oznaczonymi pytaniami. Pochodziły one z standardowego zanieczyszczenia: zgłoszenia ICLR 2026 na OpenReview opublikowały odpowiedzi BrowseComp w tabelach w formacie tekstowym. ArXiv zawierał pełne trajektorie rozwiązań w aneksach. W jednym pytaniu, pierwsze zapytanie wyszukiwania Opusa zwróciło artykuł z dokładną odpowiedzią jako pierwszym wynikiem. Zatem benchmark zaprojektowany w celu sprawdzenia, czy modele mogą znaleźć trudne do znalezienia informacje w sieci, zawodzi, ponieważ badacze wciąż publikują odpowiedzi w sieci. To 20+ różnych źródeł wycieków i liczba ta rośnie. Anthropic przyznaje, że ich własne ujawnienie pogorszy problem. Ale to, co powinno niepokoić każde laboratorium AI: 18 niezależnych uruchomień zbiegało się w tej samej strategii. Opus znalazł kod źródłowy na GitHubie, zreverse'ował schemat szyfrowania XOR/SHA-256, napisał własne funkcje odszyfrowujące, napotkał błąd typu zawartości w pliku binarnym, a następnie znalazł alternatywne lustro na HuggingFace, które dostarczało dane w kompatybilnym formacie. Blokady na poziomie URL nie powstrzymały go. Model ominął je. To mówi coś o tym, w jakim kierunku zmierza ocena agentowego AI. Statyczne benchmarki z zaszyfrowanymi kluczami odpowiedzi są równoważne zamknięciu drzwi na klucz i wręczeniu modelowi wyszukiwarki, która może znaleźć klucz. Przejrzystość ze strony Anthropic jest prawdziwa. Mogli cicho powtórzyć test, zatrzymać 86,57% i nic nie powiedzieć. Zamiast tego opublikowali pełne zestawienie tego, jak to się stało. Porównaj to z tym, jak większość laboratoriów radzi sobie z zanieczyszczeniem benchmarków. Zmiana wyniku o 0,24% ujawnia większy problem: benchmarki AI to przeciekający statek, a modele stają się wystarczająco dobre, aby znaleźć każdy wyciek.