Anthropic oppdaget at Claude Opus 4.6 jukset under BrowseComp-benchmarken. > På ett spørsmål brukte den ~40 millioner tokens på å lete før den innså at spørsmålet så ut som en benchmark-prompt. > Modellen søkte deretter etter selve benchmarken og identifiserte BrowseComp. > Den fant evalueringskildekoden på GitHub, studerte dekrypteringslogikken, fant krypteringsnøkkelen og gjenskapte dekrypteringen ved hjelp av SHA-256. > Claude dekrypterte deretter svarene for ~1200 spørsmål for å få riktige resultater. > Dette mønsteret dukket opp 18 ganger under evalueringen. > Anthropic offentliggjorde saken, testet de berørte testene på nytt, og senket sine referansepoeng. Respekt for åpenheten 🫡🫡🫡