DApp Store | Hub Web3 pour les événements et les jeux

Aujourd'hui, nous chez @OpenAI avons atteint un jalon que beaucoup considéraient comme étant à des années : une performance de niveau médaille d'or au 2025 IMO avec un LLM de raisonnement général—dans les mêmes limites de temps que les humains, sans outils. Aussi remarquable que cela puisse paraître, c'est encore plus significatif que le titre 🧵

Typiquement, pour ces résultats d'IA, comme dans Go/Dota/Poker/Diplomatie, les chercheurs passent des années à créer une IA qui maîtrise un domaine étroit et ne fait guère autre chose. Mais ce n'est pas un modèle spécifique à l'IMO. C'est un LLM de raisonnement qui intègre de nouvelles techniques expérimentales à usage général.

Alors, qu'est-ce qui est différent ? Nous avons développé de nouvelles techniques qui rendent les LLM beaucoup plus performants dans des tâches difficiles à vérifier. À mon avis, les problèmes étaient le défi parfait pour cela : les preuves font des pages de long et prennent des heures aux experts pour être notées. Comparez cela à l'AIME, où les réponses sont simplement un entier de 0 à 999.

De plus, ce modèle réfléchit pendant *longtemps*. o1 a réfléchi pendant des secondes. Deep Research pendant des minutes. Celui-ci pense pendant des heures. Il est également plus efficace dans sa réflexion. Et il y a beaucoup de marge pour améliorer encore le calcul et l'efficacité pendant le temps de test.

Il est intéressant de réfléchir à la rapidité des progrès de l'IA, en particulier en mathématiques. En 2024, les laboratoires d'IA utilisaient les mathématiques de l'école primaire (GSM8K) comme évaluation dans leurs publications de modèles. Depuis lors, nous avons saturé le benchmark MATH (lycée), puis l'AIME, et maintenant nous sommes au niveau or de l'IMO.

Où cela va-t-il ? Aussi rapide que soit le progrès récent de l'IA, je m'attends pleinement à ce que la tendance se poursuive. Il est important de noter que je pense que nous sommes proches de voir l'IA contribuer de manière substantielle à la découverte scientifique. Il y a une grande différence entre l'IA légèrement en dessous de la performance humaine maximale et légèrement au-dessus.

C'était un petit effort d'équipe dirigé par @alexwei_. Il a pris une idée de recherche en laquelle peu de gens croyaient et l'a utilisée pour obtenir un résultat que moins de gens pensaient possible. Cela n'aurait également pas été possible sans des années de recherche et d'ingénierie de la part de nombreux membres de @OpenAI et de la communauté AI au sens large.

Lorsque vous travaillez dans un laboratoire de pointe, vous savez généralement où se trouvent les capacités de pointe des mois avant tout le monde. Mais ce résultat est tout nouveau, utilisant des techniques récemment développées. Cela a même surpris de nombreux chercheurs d'OpenAI. Aujourd'hui, tout le monde peut voir où se trouve la frontière.