DApp Store | Hub Web3 pentru evenimente și jocuri

Astăzi, noi, la @OpenAI, am atins o etapă pe care mulți au considerat-o la ani distanță: performanța la nivel de medalie de aur la IMO 2025 cu un LLM de raționament general - în aceleași limite de timp ca oamenii, fără unelte. Oricât de remarcabil ar suna, este chiar mai semnificativ decât titlul 🧵

De obicei, pentru aceste rezultate AI, cum ar fi în Go/Dota/Poker/Diplomacy, cercetătorii petrec ani de zile creând o inteligență artificială care stăpânește un domeniu îngust și nu face nimic altceva. Dar acesta nu este un model specific OMI. Este un LLM de raționament care încorporează noi tehnici experimentale de uz general.

Deci, ce este diferit? Am dezvoltat noi tehnici care fac LLM-urile mult mai bune la sarcini greu de verificat. Problemele IMO au fost provocarea perfectă pentru asta: demonstrațiile sunt lungi de pagini și necesită ore întregi pentru a fi notate. Comparați asta cu AIME, unde răspunsurile sunt pur și simplu un număr întreg de la 0 la 999.

De asemenea, acest model se gândește pentru o perioadă *lungă* de timp. O1 s-a gândit câteva secunde. Cercetare aprofundată timp de câteva minute. Acesta se gândește ore în șir. Important, este, de asemenea, mai eficient cu gândirea sa. Și există mult spațiu pentru a împinge mai departe calculul și eficiența în timpul testului.

Merită să reflectăm la cât de rapid a fost progresul AI, în special în matematică. În 2024, laboratoarele AI foloseau matematica școlii primare (GSM8K) ca evaluare în versiunile lor de model. De atunci, am saturat benchmark-ul MATH (de liceu), apoi AIME, iar acum suntem la aur IMO.

Unde se duce? Oricât de rapid a fost progresul recent al IA, mă aștept ca tendința să continue. Important este că cred că suntem aproape de AI care contribuie substanțial la descoperirea științifică. Există o mare diferență între AI puțin sub performanța umană de top și puțin mai sus.

Acesta a fost un mic efort de echipă condus de @alexwei_. A luat o idee de cercetare în care puțini credeau și a folosit-o pentru a obține un rezultat pe care mai puțini îl credeau posibil. De asemenea, acest lucru nu ar fi posibil fără ani de cercetare + inginerie de la mulți de la @OpenAI și de la comunitatea AI mai largă.

Când lucrezi la un laborator de frontieră, de obicei știi unde sunt capacitățile de frontieră cu luni înaintea oricui altcineva. Dar acest rezultat este nou, folosind tehnici recent dezvoltate. A fost o surpriză chiar și pentru mulți cercetători de la OpenAI. Astăzi, toată lumea poate vedea unde este frontiera.