Quindi, tutti i modelli sottoperformano rispetto agli esseri umani sulle nuove domande delle Olimpiadi Internazionali di Matematica, e Grok-4 è particolarmente scarso, anche con la selezione best-of-n? Incredibile!
549,84K