El examen de matemáticas de secundaria más difícil del mundo, el IMO 2025 de 6 problemas y 9 horas, fue esta semana. Los modelos de IA tuvieron un rendimiento deficiente. Gemini 2.5 Pro obtuvo la puntuación más alta, solo 13/42, costando $431.97, en una evaluación de 32. El corte para el bronce fue 19. Aún queda un largo camino para que la IA resuelva matemáticas difíciles.
Aquí hay una visualización más hermosa del rendimiento del modelo en MathArena
P6 fue definitivamente el problema más difícil e interesante. La mayoría de las personas pueden entenderlo, pero muy pocos pueden resolverlo. Todos los modelos obtuvieron 0/7.
Pequeña corrección:
Alexander Wei
Alexander WeiHace 14 horas
1/N Estoy emocionado de compartir que nuestro último LLM experimental de @OpenAI ha logrado un desafío importante en IA: un rendimiento de nivel medalla de oro en la competencia de matemáticas más prestigiosa del mundo: la Olimpiada Internacional de Matemáticas (IMO).
76,36K