Итак, все модели показывают худшие результаты, чем люди, на новых вопросах Международной математической олимпиады, и Grok-4 особенно плох в этом, даже с выбором лучших из нескольких? Невероятно!
549,83K