Nota bene: questo è stato twittato 7 ore prima che OAI annunciasse il loro risultato dorato.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 lug, 09:17
Quindi, tutti i modelli sottoperformano rispetto agli esseri umani sulle nuove domande delle Olimpiadi Internazionali di Matematica, e Grok-4 è particolarmente scarso, anche con la selezione best-of-n? Incredibile!
26,04K