Уточнення продуктивності o3 ARC-AGI OpenAI підтвердила: * Випущений o3 відрізняється від тієї, яку ми тестували у грудні 2024 року * Усі випущені обчислювальні рівні o3 менші, ніж версія, яку ми тестували * Випущений o3 не був навчений на даних ARC-AGI, навіть потяговий набір * Випущений o3 налаштований для використання в чаті/продукті, що представляє як сильні, так і слабкі сторони ARC-AGI Що робитиме ARC Prize: * Ми повторно протестуємо випущений o3 (всі обчислювальні рівні) та опублікуємо оновлені результати. Попередні оцінки будуть позначені як "попередній перегляд" * Ми протестуємо та опублікуємо результати o4-mini якомога швидше * Ми протестуємо o3-pro, як тільки він стане доступним
127,37K