Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro на результатах ARC-AGI Semi Private Eval
ARC-AGI-1:
* Низький: 44%, $1,64/завдання
* Середній: 57%, $3,18/завдання
* Високий: 59%, $4,16/завдання
ARC-AGI-2:
* Усі зусилля з міркування: <5%, $4-7/завдання
Висновки:
* O3-Pro відповідно до характеристик O3
* Нова ціна o3 встановлює ARC-AGI-1 Frontier
Зауважте, що o3 Pro — це *не* та модель, яку ми тестували в грудні '24 (o3-preview)
OpenAI це прямо підтвердила. Дивіться довідковий твіт для отримання додаткової інформації

17 квіт. 2025 р.
Уточнення продуктивності o3 ARC-AGI
OpenAI підтвердила:
* Випущений o3 відрізняється від тієї, яку ми тестували у грудні 2024 року
* Усі випущені обчислювальні рівні o3 менші, ніж версія, яку ми тестували
* Випущений o3 не був навчений на даних ARC-AGI, навіть потяговий набір
* Випущений o3 налаштований для використання в чаті/продукті, що представляє як сильні, так і слабкі сторони ARC-AGI
Що робитиме ARC Prize:
* Ми повторно протестуємо випущений o3 (всі обчислювальні рівні) та опублікуємо оновлені результати. Попередні оцінки будуть позначені як "попередній перегляд"
* Ми протестуємо та опублікуємо результати o4-mini якомога швидше
* Ми протестуємо o3-pro, як тільки він стане доступним
Результати O3 були оновлені, щоб відобразити зниження ціни на 80%
Новими на діаграмі є точки даних для o3 (Високе міркування) та o4-mini (Високе міркування). Раніше вони були виключені через тайм-аути моделі.
Новий «фоновий режим» OpenAI дозволив нам обробляти ці моделі на високих налаштуваннях обчислень.
Дивіться таблицю лідерів:
Відтворити результати:
108,72K
Найкращі
Рейтинг
Вибране