Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Löjligt att OpenAI hävdade 74,9% på SWE-Bench bara för att bevisa att de låg över Opus 4.1:s 74,5%...
Genom att köra det på 477 problem istället för hela 500.
Deras systemkort säger bara 74% också.

Källa:
Och ja, jag vet att de alltid har rapporterat om 477-nämnaren, men det är INTE "SWE-Bench verifierad", det är ett helt annat mått, det är "OpenAI:s delmängd av SWE Bench Verified" och den siffran kan inte jämföras
23,46K
Topp
Rankning
Favoriter