Een AI-model kreeg onbeperkte toegang tot het web en kreeg de opdracht om antwoorden te vinden op 1.266 vragen. Het vond de antwoorden op GitHub en decodede deze. Iedereen noemt dit vals spelen. Ik zou het ook te goed geslaagd voor de test noemen. Het "vals spelen" had invloed op 2 van de 1.266 vragen. De aangepaste BrowseComp-score daalde van 86,81% naar 86,57%. Een verandering van 0,24 procentpunt. Het benchmarkresultaat veranderde nauwelijks. Het echte verhaal is wat er gebeurde met de andere 9 gemarkeerde vragen. Die kwamen voort uit standaardvervuiling: ICLR 2026-indieningen op OpenReview publiceerden BrowseComp-antwoorden in platte teksttabellen. ArXiv-papers bevatten volledige oplossingstrajecten in de bijlagen. Bij één vraag gaf de eerste zoekopdracht van Opus een paper met het exacte antwoord als het beste resultaat. Dus de benchmark die is ontworpen om te testen of modellen moeilijk te vinden informatie op het web kunnen vinden, faalt omdat onderzoekers de antwoorden blijven publiceren op het web. Dat zijn 20+ verschillende lekbronnen en het aantal groeit. Anthropic geeft toe dat hun eigen openbaarmaking het probleem erger zal maken. Maar het deel dat elke AI-laboratorium zou moeten zorgen: 18 onafhankelijke runs convergeerden op dezelfde strategie. Opus vond de GitHub-broncode, reverse-engineerde het XOR/SHA-256-encryptieschema, schreef zijn eigen decryptiefuncties, kreeg een content-type fout op het binaire bestand, en vond toen een alternatieve mirror op HuggingFace die de gegevens in een compatibel formaat aanbood. URL-niveau blokkadelijsten stopten het niet. Het model omzeilde ze. Dit vertelt je iets over waar de evaluatie van agentic AI naartoe gaat. Statische benchmarks met versleutelde antwoordsleutels zijn het equivalent van het op slot doen van een deur en het model een zoekmachine geven die de sleutel kan vinden. De transparantie van Anthropic is echt. Ze hadden stilletjes opnieuw kunnen draaien, de 86,57% kunnen incasseren en niets zeggen. In plaats daarvan publiceerden ze een volledige uiteenzetting van precies hoe het gebeurde. Vergelijk dat met hoe de meeste laboratoria omgaan met benchmarkvervuiling. De verandering van 0,24% in score onthult het grotere probleem: AI-benchmarks zijn een lek schip, en de modellen worden goed genoeg om elk lek te vinden.