Nota: esto fue tuiteado 7 horas antes de que OAI anunciara su resultado de oro
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 jul, 09:17
Entonces, ¿todos los modelos tienen un rendimiento inferior al de los humanos en las nuevas preguntas de la Olimpiada Internacional de Matemáticas, y Grok-4 es especialmente malo en eso, incluso con la selección al mejor de n? ¡Increíble!
26.04K