DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Ridiculous that OpenAI claimed 74.9% on SWE-Bench just to prove they were above Opus 4.1’s 74.5%… By running it on 477 problems instead of the full 500. Their system card only says 74% too.

Fonte:

E sim, eu sei que eles sempre relataram o denominador 477, mas isso NÃO é "SWE-Bench verificado", é uma métrica totalmente diferente, é "Subconjunto da OpenAI de SWE Bench Verified" e esse número não pode ser comparado

23,43K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável