🧠 Grok 4 od @xai dělá pokroky v referenčních hodnotách uvažování, ale obrázek je jemnější, než naznačují skóre. Zde se dozvíte, jak si stojí – a co se z jeho výsledků 🧵 můžeme skutečně naučit 📊 Celé vyhodnocení: 1️⃣ Grok 4 skóre: • AI2 Reasoning Challenge (Easy): 98 % • AIME 2025 (matematika): 89 % • Účetní audit: 84 % • MMLU-plus: 64 % • Data4Health: 55 % Jedná se o nejvyšší skóre – ale pojďme si přiblížit to, co funguje a co stále selhává. 2️⃣ AIME 2025 ✅ Zvládá algebru, geometrii, teorii čísel ✅ Dodržuje pravidla formátování LaTeXu ❌ Bojuje s vícekrokovou logikou ❌ Chyby v kombinatorice ❌ Problémy s přesností formátu (např. chybějící °) 3️⃣ Účetní audit ✅ Silný v oblasti etiky a podávání zpráv ✅ Dobrá znalost auditorských principů ❌ Nesprávně interpretuje podobné postupy ❌ Nedokáže rozpoznat jemné rozdíly v odpovědích ❌ Je těžké aplikovat teorii na případy z reálného světa 4️⃣ Skutečný vhled? Dokonce i model s 98 % v některých úlohách může těžce selhat při nejednoznačnosti nebo namáhání formátováním. Benchmarky jako AIME a Audit ukazují, jak selhává, nejen jak moc skóruje. 5️⃣ Proč je to důležité: Potřebujeme transparentní hodnocení podle úkolů – nejen žebříčky. #Grok4 je výkonný, ale stále křehký v doménách s vysokými sázkami v reálném světě. 🧪 Prozkoumejte celý rozpis: #AI #LLMs #Benchmarking
1,01K