Jadi, semua model berkinerja buruk pada manusia pada pertanyaan Olimpiade Matematika Internasional yang baru, dan Grok-4 sangat buruk di dalamnya, bahkan dengan seleksi terbaik-of-n? Luar biasa!
531,98K