Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro на ARC-AGI Semi Private Eval Результаты
АРК-ОИИ-1:
* Низкий: 44%, $1.64/задача
* Средний: 57%, $3.18/задача
* Высокий: 59%, $4,16/задача
АРК-ОИИ-2:
* Все усилия по обоснованию: <5%, $4-7/задача
Выводы:
* O3-Pro в соответствии с производительностью O3
* Новая цена o3 устанавливает ARC-AGI-1 Frontier
Обратите внимание, что o3 Pro *не* является той же моделью, которую мы тестировали в декабре 2024 года (o3-preview)
OpenAI это явно подтвердил. См. ссылку на твит для получения дополнительной информации.

17 апр. 2025 г.
Уточнение производительности o3 на ARC-AGI
OpenAI подтвердил:
* Выпущенная версия o3 отличается от той, которую мы тестировали в декабре 2024 года
* Все выпущенные вычислительные уровни o3 меньше версии, которую мы тестировали
* Выпущенная версия o3 не была обучена на данных ARC-AGI, даже на обучающем наборе
* Выпущенная версия o3 настроена для использования в чатах/продуктах, что вносит как преимущества, так и недостатки на ARC-AGI
Что сделает ARC Prize:
* Мы повторно протестируем выпущенную версию o3 (все вычислительные уровни) и опубликуем обновленные результаты. Предыдущие оценки будут помечены как "предварительные"
* Мы протестируем и выпустим результаты o4-mini как можно скорее
* Мы протестируем o3-pro, как только он станет доступен
результаты o3 были обновлены, чтобы отразить снижение цены на 80%
На графике появились новые точки данных для o3 (Высокое рассуждение) и o4-mini (Высокое рассуждение). Ранее они были исключены из-за таймаутов модели.
Новый «фоновый режим» OpenAI позволил нам обрабатывать эти модели на высоких вычислительных настройках.
Смотрите таблицу лидеров:
Воспроизвести результаты:
108,75K
Топ
Рейтинг
Избранное