DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Es ridículo que OpenAI reclamara el 74,9% en SWE-Bench solo para demostrar que estaban por encima del 74,5% de Opus 4.1 ... Al ejecutarlo en 477 problemas en lugar de los 500 completos. Su tarjeta del sistema solo dice 74% también.

Fuente:

Y sí, sé que siempre han informado sobre el denominador 477, pero eso NO es "verificado por SWE-Bench", es una métrica completamente diferente, es "el subconjunto de OpenAI de SWE Bench Verificado" y ese número no se puede comparar.

23,43K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado