Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Ridiculous that OpenAI claimed 74.9% on SWE-Bench just to prove they were above Opus 4.1’s 74.5%… By running it on 477 problems instead of the full 500. Their system card only says 74% too.

Fonte:

E sim, eu sei que eles sempre relataram sobre o denominador 477, mas isso NÃO é "verificado pelo SWE-Bench", é uma métrica completamente diferente, é "o subconjunto da OpenAI do SWE Bench Verificado" e esse número não pode ser comparado.

23,43K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável