Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic oppdaget at Claude Opus 4.6 jukset under BrowseComp-benchmarken.
> På ett spørsmål brukte den ~40 millioner tokens på å lete før den innså at spørsmålet så ut som en benchmark-prompt.
> Modellen søkte deretter etter selve benchmarken og identifiserte BrowseComp.
> Den fant evalueringskildekoden på GitHub, studerte dekrypteringslogikken, fant krypteringsnøkkelen og gjenskapte dekrypteringen ved hjelp av SHA-256.
> Claude dekrypterte deretter svarene for ~1200 spørsmål for å få riktige resultater.
> Dette mønsteret dukket opp 18 ganger under evalueringen.
> Anthropic offentliggjorde saken, testet de berørte testene på nytt, og senket sine referansepoeng.
Respekt for åpenheten 🫡🫡🫡
Topp
Rangering
Favoritter
