DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Löjligt att OpenAI hävdade 74,9% på SWE-Bench bara för att bevisa att de låg över Opus 4.1:s 74,5%... Genom att köra det på 477 problem istället för hela 500. Deras systemkort säger bara 74% också.

Källa:

Och ja, jag vet att de alltid har rapporterat om 477-nämnaren, men det är INTE "SWE-Bench verifierad", det är ett helt annat mått, det är "OpenAI:s delmängd av SWE Bench Verified" och den siffran kan inte jämföras

23,46K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda