Astăzi, noi, la @OpenAI, am atins o etapă pe care mulți au considerat-o la ani distanță: performanța la nivel de medalie de aur la IMO 2025 cu un LLM de raționament general - în aceleași limite de timp ca oamenii, fără unelte. Oricât de remarcabil ar suna, este chiar mai semnificativ decât titlul 🧵
Alexander Wei
Alexander Wei19 iul., 15:50
1/N Sunt încântat să vă împărtășesc că cel mai recent @OpenAI raționament experimental LLM a realizat o mare provocare de lungă durată în AI: performanța la nivel de medalie de aur la cea mai prestigioasă competiție de matematică din lume - Olimpiada Internațională de Matematică (IMO).
De obicei, pentru aceste rezultate AI, cum ar fi în Go/Dota/Poker/Diplomacy, cercetătorii petrec ani de zile creând o inteligență artificială care stăpânește un domeniu îngust și nu face nimic altceva. Dar acesta nu este un model specific OMI. Este un LLM de raționament care încorporează noi tehnici experimentale de uz general.
Deci, ce este diferit? Am dezvoltat noi tehnici care fac LLM-urile mult mai bune la sarcini greu de verificat. Problemele IMO au fost provocarea perfectă pentru asta: demonstrațiile sunt lungi de pagini și necesită ore întregi pentru a fi notate. Comparați asta cu AIME, unde răspunsurile sunt pur și simplu un număr întreg de la 0 la 999.
De asemenea, acest model se gândește pentru o perioadă *lungă* de timp. O1 s-a gândit câteva secunde. Cercetare aprofundată timp de câteva minute. Acesta se gândește ore în șir. Important, este, de asemenea, mai eficient cu gândirea sa. Și există mult spațiu pentru a împinge mai departe calculul și eficiența în timpul testului.
Noam Brown
Noam Brown13 sept. 2024
@OpenAI @rao2z @OpenAI o1 gândește câteva secunde, dar ne propunem ca versiunile viitoare să gândească ore, zile, chiar săptămâni. Costurile de inferență vor fi mai mari, dar ce preț ați plăti pentru un nou medicament împotriva cancerului? Pentru baterii revoluționare? Pentru o demonstrație a ipotezei Riemann? AI poate fi mai mult decât chatbots
Merită să reflectăm la cât de rapid a fost progresul AI, în special în matematică. În 2024, laboratoarele AI foloseau matematica școlii primare (GSM8K) ca evaluare în versiunile lor de model. De atunci, am saturat benchmark-ul MATH (de liceu), apoi AIME, iar acum suntem la aur IMO.
Unde se duce? Oricât de rapid a fost progresul recent al IA, mă aștept ca tendința să continue. Important este că cred că suntem aproape de AI care contribuie substanțial la descoperirea științifică. Există o mare diferență între AI puțin sub performanța umană de top și puțin mai sus.
Acesta a fost un mic efort de echipă condus de @alexwei_. A luat o idee de cercetare în care puțini credeau și a folosit-o pentru a obține un rezultat pe care mai puțini îl credeau posibil. De asemenea, acest lucru nu ar fi posibil fără ani de cercetare + inginerie de la mulți de la @OpenAI și de la comunitatea AI mai largă.
Când lucrezi la un laborator de frontieră, de obicei știi unde sunt capacitățile de frontieră cu luni înaintea oricui altcineva. Dar acest rezultat este nou, folosind tehnici recent dezvoltate. A fost o surpriză chiar și pentru mulți cercetători de la OpenAI. Astăzi, toată lumea poate vedea unde este frontiera.
1,07M