Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aujourd'hui, nous chez @OpenAI avons atteint un jalon que beaucoup considéraient comme étant à des années : une performance de niveau médaille d'or au 2025 IMO avec un LLM de raisonnement général—dans les mêmes limites de temps que les humains, sans outils. Aussi remarquable que cela puisse paraître, c'est encore plus significatif que le titre 🧵

19 juil., 15:50
1/N Je suis ravi de partager que notre dernier LLM expérimental de raisonnement @OpenAI a atteint un défi de longue date en IA : une performance de niveau médaille d'or lors de la compétition mathématique la plus prestigieuse au monde - l'Olympiade Internationale de Mathématiques (IMO).

Typiquement, pour ces résultats d'IA, comme dans Go/Dota/Poker/Diplomatie, les chercheurs passent des années à créer une IA qui maîtrise un domaine étroit et ne fait guère autre chose. Mais ce n'est pas un modèle spécifique à l'IMO. C'est un LLM de raisonnement qui intègre de nouvelles techniques expérimentales à usage général.
Alors, qu'est-ce qui est différent ? Nous avons développé de nouvelles techniques qui rendent les LLM beaucoup plus performants dans des tâches difficiles à vérifier. À mon avis, les problèmes étaient le défi parfait pour cela : les preuves font des pages de long et prennent des heures aux experts pour être notées. Comparez cela à l'AIME, où les réponses sont simplement un entier de 0 à 999.
De plus, ce modèle réfléchit pendant *longtemps*. o1 a réfléchi pendant des secondes. Deep Research pendant des minutes. Celui-ci pense pendant des heures. Il est également plus efficace dans sa réflexion. Et il y a beaucoup de marge pour améliorer encore le calcul et l'efficacité pendant le temps de test.

13 sept. 2024
@OpenAI @rao2z @OpenAI pense que o1 réfléchit pendant des secondes, mais nous visons à ce que les futures versions réfléchissent pendant des heures, des jours, voire des semaines. Les coûts d'inférence seront plus élevés, mais quel prix seriez-vous prêt à payer pour un nouveau médicament contre le cancer ? Pour des batteries révolutionnaires ? Pour une preuve de l'hypothèse de Riemann ? L'IA peut être plus que des chatbots.

Il est intéressant de réfléchir à la rapidité des progrès de l'IA, en particulier en mathématiques. En 2024, les laboratoires d'IA utilisaient les mathématiques de l'école primaire (GSM8K) comme évaluation dans leurs publications de modèles. Depuis lors, nous avons saturé le benchmark MATH (lycée), puis l'AIME, et maintenant nous sommes au niveau or de l'IMO.
Où cela va-t-il ? Aussi rapide que soit le progrès récent de l'IA, je m'attends pleinement à ce que la tendance se poursuive. Il est important de noter que je pense que nous sommes proches de voir l'IA contribuer de manière substantielle à la découverte scientifique. Il y a une grande différence entre l'IA légèrement en dessous de la performance humaine maximale et légèrement au-dessus.
C'était un petit effort d'équipe dirigé par @alexwei_. Il a pris une idée de recherche en laquelle peu de gens croyaient et l'a utilisée pour obtenir un résultat que moins de gens pensaient possible. Cela n'aurait également pas été possible sans des années de recherche et d'ingénierie de la part de nombreux membres de @OpenAI et de la communauté AI au sens large.
Lorsque vous travaillez dans un laboratoire de pointe, vous savez généralement où se trouvent les capacités de pointe des mois avant tout le monde. Mais ce résultat est tout nouveau, utilisant des techniques récemment développées. Cela a même surpris de nombreux chercheurs d'OpenAI. Aujourd'hui, tout le monde peut voir où se trouve la frontière.
998,21K
Meilleurs
Classement
Favoris