Цього тижня відбувся найважчий іспит з математики в середній школі у світі, 6 задач 9 годин IMO 2025. Моделі штучного інтелекту показали себе погано. Gemini 2.5 Pro отримав найвищий бал, лише 13/42, вартістю $431,97, у best of 32 eval. Бронзовий поріг – 19. Довгий шлях попереду для того, щоб штучний інтелект розв'язав складну математику.
Ось більш красива візуалізація продуктивності моделі на MathArena
П6 була, безумовно, найважчою і найцікавішою проблемою. Більшість людей можуть її зрозуміти, але далеко не всі можуть її вирішити. Усі моделі набрали 0/7 балів.
Невелика корекція:
Alexander Wei
Alexander Wei13 годин тому
1/N Я радий повідомити, що наш останній @OpenAI експериментальний LLM досяг давнього грандіозного виклику в галузі штучного інтелекту: виступ на рівні золотої медалі на найпрестижнішому у світі математичному конкурсі — Міжнародній математичній олімпіаді (IMO).
76,35K