Es ridículo que OpenAI reclamara el 74,9% en SWE-Bench solo para demostrar que estaban por encima del 74,5% de Opus 4.1 ... Al ejecutarlo en 477 problemas en lugar de los 500 completos. Su tarjeta del sistema solo dice 74% también.
Fuente:
Y sí, sé que siempre han informado sobre el denominador 477, pero eso NO es "verificado por SWE-Bench", es una métrica completamente diferente, es "el subconjunto de OpenAI de SWE Bench Verificado" y ese número no se puede comparar.
23,43K