Donc, tous les modèles sous-performent les humains sur les nouvelles questions de l'Olympiade Internationale de Mathématiques, et Grok-4 est particulièrement mauvais à ce sujet, même avec la sélection best-of-n ? Incroyable !
531,99K