Цікаво: 3/4 місяці тому я запустив o3 для деяких вчених на приватному тестовому наборі задач, схожих на AIME. Їм знадобилося стільки часу, щоб написати резюме результатів (96%), що Алекс тим часом вирішив IMO.
140