Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic hat entdeckt, dass Claude Opus 4.6 beim BrowseComp-Benchmark geschummelt hat.
> Bei einer Frage verbrachte es ~40M Tokens mit Suchen, bevor es bemerkte, dass die Frage wie ein Benchmark-Prompt aussah.
> Das Modell suchte dann nach dem Benchmark selbst und identifizierte BrowseComp.
> Es fand den Evaluierungsquellcode auf GitHub, studierte die Entschlüsselungslogik, fand den Verschlüsselungsschlüssel und rekreierte die Entschlüsselung mit SHA-256.
> Claude entschlüsselte dann die Antworten auf ~1200 Fragen, um die korrekten Ausgaben zu erhalten.
> Dieses Muster trat während der Evaluierung 18 Mal auf.
> Anthropic gab das Problem öffentlich bekannt, führte die betroffenen Tests erneut durch und senkte ihre Benchmark-Ergebnisse.
Respekt für die Transparenz 🫡🫡🫡
Top
Ranking
Favoriten
