Grok 4 is op het punt waar het in wezen nooit meer wiskunde/fysica-examenvragen fout heeft, tenzij ze vakkundig tegenstrijdig zijn. Het kan fouten of ambiguïteiten in vragen identificeren, en vervolgens de fout in de vraag corrigeren of elke variant van een ambiguïteit beantwoorden.
Deedy
Deedy10 jul, 14:07
Het is krankzinnig dat Elon Musk het weer voor elkaar heeft gekregen, absoluut de AI-oorlogen verpletterend met Grok 4. Samenvatting van de belangrijkste aankondigingen: — Post-training RL-uitgaven == pretraining-uitgaven — $3/M input told, $15/M output toks, 256k context, prijs 2x boven 128k — #1 op Humanity’s Last Exam (algemene moeilijke problemen) 44,4%, #2 is 26,9% — #1 op GPQA (moeilijke graduate problemen) 88,9%. #2 is 86,4% — #1 op AIME 2025 (Wiskunde) 100%, #2 is 98,4% — #1 op Harvard MIT Wiskunde 96,7%, #2 is 82,5% — #1 op USAMO25 (Wiskunde) 61,9%, #2 is 49,4% — #1 op ARC-AGI-2 (gemakkelijk voor mensen, moeilijk voor AI) 15,9%, #2 is 8,6% — #1 op LiveCodeBench (jan-mei) 79,4%, #2 is 75,8% Grok 4 is "potentieel beter dan PhD-niveau in elk onderwerp zonder uitzondering".. en het is behoorlijk goedkoop. Een enorm moment in de AI-oorlogen en Elon is gekomen om te spelen.
6,33M