Nota: esto fue tuiteado 7 horas antes de que OAI anunciara su resultado de oro.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 jul, 09:17
Entonces, todos los modelos tienen un rendimiento inferior al de los humanos en las nuevas preguntas de la Olimpiada Internacional de Matemáticas, y Grok-4 es especialmente malo en esto, incluso con la selección de mejor de n. ¡Increíble!
26,06K