DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Belachelijk dat OpenAI 74.9% claimde op SWE-Bench om te bewijzen dat ze boven de 74.5% van Opus 4.1 zaten... Door het op 477 problemen te laten draaien in plaats van de volledige 500. Hun systeemkaart zegt ook maar 74%.

Bron:

En ja, ik weet dat ze altijd over de 477 noemer hebben gerapporteerd, maar dat is NIET "SWE-Bench geverifieerd", dat is een totaal andere maatstaf, het is "OpenAI's subset van SWE Bench Verified" en dat nummer kan niet worden vergeleken.

23,42K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste