Het moeilijkste wiskunde-examen van de middelbare school ter wereld, de 6 problemen 9 uur IMO 2025, vond deze week plaats. AI-modellen presteerden slecht. Gemini 2.5 Pro scoorde het hoogste, slechts 13/42, kostend $431,97, in een beste van 32 evaluatie. De bronzen grens was 19. Er is nog een lange weg te gaan voor AI om moeilijke wiskunde op te lossen.
Hier is een mooiere visualisatie van de modelprestaties op MathArena
P6 was zeker het moeilijkste en meest interessante probleem. De meeste mensen kunnen het begrijpen, maar zeer weinigen kunnen het oplossen. Alle modellen scoorden 0/7.
Kleine correctie:
Alexander Wei
Alexander Wei23 uur geleden
1/N Ik ben enthousiast om te delen dat onze nieuwste @OpenAI experimentele redeneermodule (LLM) een langdurige grote uitdaging in AI heeft bereikt: goudmedaille-niveau prestaties op de meest prestigieuze wiskundewedstrijd ter wereld—de Internationale Wiskunde Olympiade (IMO).
167,89K