Vandaag hebben wij bij @OpenAI een mijlpaal bereikt die velen jaren weg dachten: een gouden medaille-niveau prestatie op de 2025 IMO met een algemeen redeneermodel—onder dezelfde tijdslimieten als mensen, zonder hulpmiddelen. Zo opmerkelijk als dat klinkt, is het nog significanter dan de kop 🧵
Alexander Wei
Alexander Wei19 jul, 15:50
1/N Ik ben enthousiast om te delen dat onze nieuwste @OpenAI experimentele redeneermodule (LLM) een langdurige grote uitdaging in AI heeft bereikt: goudmedaille-niveau prestaties op de meest prestigieuze wiskundewedstrijd ter wereld—de Internationale Wiskunde Olympiade (IMO).
Typisch voor deze AI-resultaten, zoals in Go/Dota/Poker/Diplomatie, besteden onderzoekers jaren aan het maken van een AI die één smal domein beheerst en verder weinig doet. Maar dit is geen IMO-specifiek model. Het is een redeneermodel dat nieuwe experimentele algemene technieken incorporeert.
Wat is er anders? We hebben nieuwe technieken ontwikkeld die LLM's veel beter maken in moeilijk te verifiëren taken. IMO-problemen waren de perfecte uitdaging hiervoor: bewijzen zijn pagina's lang en kosten experts uren om te beoordelen. Vergelijk dat met AIME, waar antwoorden simpelweg een geheel getal van 0 tot 999 zijn.
Ook dit model denkt *lang* na. o1 dacht enkele seconden. Deep Research dacht enkele minuten. Dit model denkt urenlang. Belangrijk is dat het ook efficiënter is in zijn denken. En er is veel ruimte om de rekentijd en efficiëntie verder te verbeteren.
Noam Brown
Noam Brown13 sep 2024
@OpenAI @rao2z @OpenAI's o1 denkt enkele seconden na, maar we streven ernaar dat toekomstige versies uren, dagen, zelfs weken nadenken. De kosten voor inferentie zullen hoger zijn, maar welke prijs zou je betalen voor een nieuw kankermedicijn? Voor baanbrekende batterijen? Voor een bewijs van de Riemann-hypothese? AI kan meer zijn dan chatbots.
Het is de moeite waard om na te denken over hoe snel de vooruitgang van AI is geweest, vooral in wiskunde. In 2024 gebruikten AI-laboratoria basisschoolwiskunde (GSM8K) als evaluatie bij hun modelreleases. Sindsdien hebben we de (middelbare school) MATH-norm verzadigd, daarna AIME, en nu zijn we op IMO-goud.
Waar gaat dit naartoe? Hoe snel de recente vooruitgang in AI ook is geweest, ik verwacht volledig dat de trend zich zal voortzetten. Belangrijk is dat ik denk dat we dicht bij het punt zijn waarop AI aanzienlijk zal bijdragen aan wetenschappelijke ontdekkingen. Er is een groot verschil tussen AI die net onder de beste menselijke prestaties zit en AI die net erboven zit.
Dit was een kleine teaminspanning geleid door @alexwei_. Hij nam een onderzoeksidee waar weinigen in geloofden en gebruikte het om een resultaat te behalen dat nog minder mensen mogelijk achtten. Dit zou ook niet mogelijk zijn geweest zonder jaren van onderzoek en engineering van velen bij @OpenAI en de bredere AI-gemeenschap.
Wanneer je werkt in een frontier lab, weet je meestal maanden van tevoren waar de frontier capaciteiten zijn voordat iemand anders dat weet. Maar dit resultaat is gloednieuw, met gebruik van recent ontwikkelde technieken. Het was zelfs een verrassing voor veel onderzoekers bij OpenAI. Vandaag krijgt iedereen te zien waar de frontier ligt.
1,05M