El examen de matemáticas de secundaria más difícil del mundo, el IMO 2025 de 9 horas de 6 problemas, fue esta semana. Los modelos de IA tuvieron un rendimiento deficiente. Gemini 2.5 Pro obtuvo la puntuación más alta, solo 13/42, con un costo de $ 431.97, en una evaluación al mejor de 32. El límite de bronce fue 19. Un largo camino por recorrer para que la IA resuelva matemáticas difíciles.
Aquí hay una visualización más hermosa del rendimiento del modelo en MathArena
P6 fue definitivamente el problema más difícil e interesante. La mayoría de la gente puede entenderlo, pero muy pocos pueden resolverlo. Todos los modelos obtuvieron una puntuación de 0/7.
Pequeña corrección:
Alexander Wei
Alexander Weihace 13 horas
1/N Me complace compartir que nuestro último @OpenAI LLM de razonamiento experimental ha logrado un gran desafío de larga data en IA: el rendimiento a nivel de medalla de oro en la competencia de matemáticas más prestigiosa del mundo: la Olimpiada Internacional de Matemáticas (IMO).
76.35K