Grok 4 è arrivato al punto in cui sostanzialmente non sbaglia mai le domande di esame di matematica/fisica, a meno che non siano abilmente avversariali. Può identificare errori o ambiguità nelle domande, quindi correggere l'errore nella domanda o rispondere a ciascuna variante di una domanda ambigua.
Deedy
Deedy10 lug, 14:07
Incredibile che Elon Musk ci sia riuscito di nuovo, schiacciando assolutamente le guerre dell'IA con Grok 4. Riassumendo gli annunci principali: — La spesa per il RL post-addestramento == spesa per l'addestramento — $3/M input, $15/M output toks, contesto 256k, prezzo 2x oltre 128k — #1 nell'Ultimo Esame dell'Umanità (problemi generali difficili) 44.4%, #2 è 26.9% — #1 su GPQA (problemi di laurea difficili) 88.9%. #2 è 86.4% — #1 su AIME 2025 (Matematica) 100%, #2 è 98.4% — #1 su Harvard MIT Math 96.7%, #2 è 82.5% — #1 su USAMO25 (Matematica) 61.9%, #2 è 49.4% — #1 su ARC-AGI-2 (facile per gli umani, difficile per l'IA) 15.9%, #2 è 8.6% — #1 su LiveCodeBench (Gen-Mag) 79.4%, #2 è 75.8% Grok 4 è "potenzialmente migliore del livello di dottorato in ogni materia senza eccezioni".. ed è piuttosto economico. Un momento enorme nelle guerre dell'IA e Elon è pronto a giocare.
6,33M