O exame de matemática do ensino secundário mais difícil do mundo, o IMO 2025 com 6 problemas em 9 horas, ocorreu esta semana. Os modelos de IA tiveram um desempenho fraco. O Gemini 2.5 Pro obteve a melhor pontuação, apenas 13/42, custando $431,97, em uma avaliação de 32. O corte para a medalha de bronze foi 19. Ainda há um longo caminho a percorrer para a IA resolver matemática difícil.
Aqui está uma visualização mais bonita do desempenho do modelo no MathArena
O P6 foi definitivamente o problema mais difícil e interessante. A maioria das pessoas consegue entendê-lo, mas muito poucos conseguem resolvê-lo. Todos os modelos marcaram 0/7.
Pequena correção:
Alexander Wei
Alexander WeiHá 23 horas
1/N Estou entusiasmado por compartilhar que o nosso mais recente LLM experimental de raciocínio da @OpenAI alcançou um desafio grandioso de longa data em IA: desempenho de nível medalha de ouro na competição de matemática mais prestigiada do mundo— as Olimpíadas Internacionais de Matemática (IMO).
167,88K