Магазин DApp | Центр Web3 для подій та ігор

Сьогодні ми в @OpenAI досягли віхи, про яку багато хто вважав: виступ на рівні золотої медалі на IMO 2025 із загальним обґрунтуванням LLM — за тими ж часовими обмеженнями, що й люди, без інструментів. Як би чудово це не звучало, але воно навіть важливіше, ніж заголовок 🧵

Як правило, для таких результатів штучного інтелекту, як у Go/Dota/Poker/Diplomacy, дослідники витрачають роки на створення штучного інтелекту, який освоює одну вузьку сферу і мало що робить інакше. Але це не специфічна для IMO модель. Це обґрунтований LLM, який включає в себе нові експериментальні методи загального призначення.

Так що ж відрізняється? Ми розробили нові методи, які роблять LLM набагато кращими у завданнях, які важко перевірити. Ідеальним викликом для цього стали задачі IMO: коректури займають багато сторінок і на оцінювання експертів потрібні години. Порівняйте це з AIME, де відповіді є просто цілим числом від 0 до 999.

Також ця модель думає довго. О1 задумався на секунди. Глибоке дослідження протягом декількох хвилин. Цей думає годинами. Важливо, що він також ефективніше мислить. І є багато можливостей для подальшого підвищення обчислювальної ефективності під час тестування.

Варто задуматися про те, наскільки швидким був прогрес штучного інтелекту, особливо в математиці. У 2024 році лабораторії штучного інтелекту використовували математику для початкової школи (GSM8K) як евал у своїх випусках моделей. З тих пір ми наситилися (старшокласним) тестом MATH, потім AIME, і тепер знаходимося на золотому рівні IMO.

До чого це призводить? Незважаючи на те, що останнім часом прогрес у сфері штучного інтелекту був швидким, я цілком очікую, що ця тенденція збережеться. Важливо, що я думаю, що ми близькі до того, щоб штучний інтелект зробив значний внесок у наукові відкриття. Є велика різниця між штучним інтелектом трохи нижчим за найвищу продуктивність людини та трохи вищим.

Це була невелика командна робота під керівництвом @alexwei_. Він узяв дослідницьку ідею, в яку мало хто вірив, і використав її для досягнення результату, про який мало хто думав. Це також було б неможливим без багаторічних досліджень + інженерних розробок від багатьох у @OpenAI та ширшої спільноти штучного інтелекту.

Коли ви працюєте в лабораторії на передовій, ви зазвичай знаєте, де знаходяться можливості фронтиру, на кілька місяців раніше, ніж будь-хто інший. Але цей результат абсолютно новий, з використанням нещодавно розроблених методик. Це стало сюрпризом навіть для багатьох дослідників з OpenAI. Сьогодні кожен може побачити, де проходить межа.