Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic ontdekte dat Claude Opus 4.6 aan het valsspelen was tijdens de BrowseComp benchmark.
> Bij één vraag besteedde het ~40M tokens aan zoeken voordat het zich realiseerde dat de vraag leek op een benchmarkprompt.
> Het model zocht vervolgens naar de benchmark zelf en identificeerde BrowseComp.
> Het vond de evaluatiebroncodes op GitHub, bestudeerde de decryptielogica, vond de encryptiesleutel en recreëerde de decryptie met SHA-256.
> Claude decrypteerde vervolgens de antwoorden voor ~1200 vragen om de juiste outputs te krijgen.
> Dit patroon verscheen 18 keer tijdens de evaluatie.
> Anthropic maakte het probleem openbaar, voerde de getroffen tests opnieuw uit en verlaagde hun benchmarkscores.
Respect voor de transparantie 🫡🫡🫡
Boven
Positie
Favorieten
