Grok 4 er på det punktet hvor den i hovedsak aldri tar feil av matematikk/fysikk-eksamensspørsmål, med mindre de er dyktig kontradiktoriske. Den kan identifisere feil eller tvetydigheter i spørsmål, og deretter fikse feilen i spørsmålet eller svare på hver variant av et tvetydig spørsmål.
Deedy
Deedy10. juli, 14:07
Sinnssykt at Elon Musk har klart det igjen, og absolutt knust AI-krigene med Grok 4. Oppsummering av de viktigste kunngjøringene: — RL-utgifter etter trening == utgifter før trening — $3/M inngang fortalt, $15/M utgangstoks, 256k kontekst, pris 2x utover 128k — #1 på menneskehetens siste eksamen (generelle harde problemer) 44.4 %, #2 er 26.9 % - #1 på GPQA (harde kandidatproblemer) 88.9 %. #2 er 86.4% — #1 på AIME 2025 (Math) 100%, #2 er 98.4% - #1 på Harvard MIT Math 96.7%, #2 er 82.5% — #1 på USAMO25 (matematikk) 61.9%, #2 er 49.4% — #1 på ARC-AGI-2 (lett for mennesker, vanskelig for AI) 15.9%, #2 er 8.6% — #1 på LiveCodeBench (jan-mai) 79.4%, #2 er 75.8% Grok 4 er "potensielt bedre enn PhD-nivå i alle intet unntak".. Og det er ganske billig. Massivt øyeblikk i AI-krigene, og Elon har kommet for å spille.
6,33M