Löjligt att OpenAI hävdade 74,9% på SWE-Bench bara för att bevisa att de låg över Opus 4.1:s 74,5%... Genom att köra det på 477 problem istället för hela 500. Deras systemkort säger bara 74% också.
Källa:
Och ja, jag vet att de alltid har rapporterat om 477-nämnaren, men det är INTE "SWE-Bench verifierad", det är ett helt annat mått, det är "OpenAI:s delmängd av SWE Bench Verified" och den siffran kan inte jämföras
23,46K