DApp Store | Web3 Hub für Ereignisse und Spiele

Heute haben wir bei @OpenAI einen Meilenstein erreicht, den viele für Jahre entfernt hielten: eine Leistung auf Goldmedaillen-Niveau bei der IMO 2025 mit einem allgemeinen reasoning LLM – unter denselben Zeitlimits wie Menschen, ohne Werkzeuge. So bemerkenswert das auch klingt, es ist noch bedeutender als die Schlagzeile 🧵

Typischerweise verbringen Forscher Jahre damit, eine KI zu entwickeln, die in einem engen Bereich wie Go/Dota/Poker/Diplomatie Meisterschaft erlangt und wenig anderes tut. Aber dies ist kein spezifisches IMO-Modell. Es handelt sich um ein reasoning LLM, das neue experimentelle, allgemeine Techniken integriert.

Was ist also anders? Wir haben neue Techniken entwickelt, die LLMs viel besser bei schwer zu überprüfenden Aufgaben machen. IMO-Probleme waren die perfekte Herausforderung dafür: Beweise sind seitenlang und benötigen Stunden von Experten zur Bewertung. Vergleiche das mit AIME, wo die Antworten einfach eine ganze Zahl von 0 bis 999 sind.

Dieses Modell denkt auch *lange* nach. o1 dachte für Sekunden. Deep Research für Minuten. Dieses hier denkt für Stunden. Wichtig ist, dass es auch effizienter mit seinem Denken umgeht. Und es gibt viel Spielraum, um die Rechenleistung und Effizienz während der Testzeit weiter zu steigern.

Es ist wert, darüber nachzudenken, wie schnell der Fortschritt der KI war, insbesondere in der Mathematik. Im Jahr 2024 verwendeten KI-Labore Grundschulmathematik (GSM8K) als Bewertung in ihren Modellveröffentlichungen. Seitdem haben wir den (Oberschul-) MATH-Benchmark saturiert, dann AIME, und jetzt sind wir beim IMO-Gold.

Wohin führt das? So schnell wie der jüngste Fortschritt in der KI war, erwarte ich, dass der Trend anhält. Wichtig ist, dass ich denke, dass wir kurz davor stehen, dass KI erheblich zur wissenschaftlichen Entdeckung beiträgt. Es gibt einen großen Unterschied zwischen KI, die leicht unter der besten menschlichen Leistung liegt, und KI, die leicht darüber liegt.

Dies war eine kleine Teamleistung, die von @alexwei_ geleitet wurde. Er nahm eine Forschungsidee, an die nur wenige glaubten, und nutzte sie, um ein Ergebnis zu erzielen, das noch weniger für möglich hielten. Dies wäre auch nicht möglich gewesen ohne jahrelange Forschung und Ingenieurarbeit von vielen bei @OpenAI und der breiteren KI-Community.

Wenn man in einem Grenzlabor arbeitet, weiß man normalerweise Monate im Voraus, wo die Grenzfähigkeiten liegen. Aber dieses Ergebnis ist brandneu und nutzt kürzlich entwickelte Techniken. Es war sogar für viele Forscher bei OpenAI eine Überraschung. Heute kann jeder sehen, wo die Grenze liegt.