обратите внимание, что это было твитнуто за 7 часов до того, как OAI объявила о своем золотом результате
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 июл., 09:17
Итак, все модели показывают худшие результаты, чем люди, на новых вопросах Международной математической олимпиады, и Grok-4 особенно плох в этом, даже с выбором лучших из нескольких? Невероятно!
26,06K