Anthropic ontdekte dat Claude Opus 4.6 aan het valsspelen was tijdens de BrowseComp benchmark. > Bij één vraag besteedde het ~40M tokens aan zoeken voordat het zich realiseerde dat de vraag leek op een benchmarkprompt. > Het model zocht vervolgens naar de benchmark zelf en identificeerde BrowseComp. > Het vond de evaluatiebroncodes op GitHub, bestudeerde de decryptielogica, vond de encryptiesleutel en recreëerde de decryptie met SHA-256. > Claude decrypteerde vervolgens de antwoorden voor ~1200 vragen om de juiste outputs te krijgen. > Dit patroon verscheen 18 keer tijdens de evaluatie. > Anthropic maakte het probleem openbaar, voerde de getroffen tests opnieuw uit en verlaagde hun benchmarkscores. Respect voor de transparantie 🫡🫡🫡