DApp Store | Centrum Web3 pro události a hry

Populární témata

Dnes jsme ve @OpenAI dosáhli milníku, který mnozí považovali za roky vzdálený: výkon na úrovni zlaté medaile na IMO 2025 s obecným uvažováním LLM – ve stejných časových limitech jako lidé, bez nástrojů. Jakkoli to zní pozoruhodně, je to ještě významnější než titulek 🧵

U těchto výsledků umělé inteligence, jako je Go/Dota/Poker/Diplomacy, je typické, že výzkumníci tráví roky vytvářením umělé inteligence, která ovládá jednu úzkou oblast a nedělá nic jiného. Nejedná se však o model specifický pro IMO. Je to uvažující LLM, který zahrnuje nové experimentální univerzální techniky.

V čem je tedy rozdíl? Vyvinuli jsme nové techniky, díky nimž jsou LLM mnohem lepší v obtížně ověřitelných úkolech. Problémy IMO byly pro to perfektní výzvou: důkazy jsou dlouhé stránky a odborníci je ohodnotí hodiny. Porovnejte to s AIME, kde jsou odpovědi jednoduše celé číslo od 0 do 999.

Také tento model přemýšlí na *dlouho* dobu. O1 se na pár vteřin zamyslel. Hluboký výzkum po dobu několika minut. Tohle přemýšlí celé hodiny. Důležité je, že je také efektivnější se svým myšlením. A je zde spousta prostoru pro další posun výpočtů a efektivity doby testování.

Stojí za to zamyslet se nad tím, jak rychlý byl pokrok v oblasti umělé inteligence, zejména v matematice. V roce 2024 používaly laboratoře umělé inteligence matematiku ze základní školy (GSM8K) jako evaluaci ve svých verzích modelů. Od té doby jsme saturovali (středoškolský) MATH benchmark, pak AIME a nyní jsme na IMO zlatě.

Kam to vede? Jakkoli je pokrok v oblasti umělé inteligence v poslední době rychlý, plně očekávám, že tento trend bude pokračovat. Důležité je, že si myslím, že jsme blízko k tomu, aby umělá inteligence významně přispívala k vědeckým objevům. Je velký rozdíl mezi umělou inteligencí mírně pod špičkovým lidským výkonem a mírně nad ním.

Jednalo se o malé týmové úsilí vedené @alexwei_. Vzal výzkumnou myšlenku, ve kterou věřil jen málokdo, a použil ji k dosažení výsledku, o kterém by méně lidí přemýšlelo. To by také nebylo možné bez let výzkumu + inženýrství mnoha lidí ve @OpenAI a širší komunitě AI.

Když pracujete v hraniční laboratoři, obvykle víte, kde jsou hraniční schopnosti, měsíce před kýmkoli jiným. Tento výsledek je však zcela nový, používá nedávno vyvinuté techniky. Bylo to překvapením i pro mnoho výzkumníků v OpenAI. Dnes každý vidí, kde je hranice.

857,2K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější