Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Grok 4 od @xai dělá pokroky v referenčních hodnotách uvažování, ale obrázek je jemnější, než naznačují skóre.
Zde se dozvíte, jak si stojí – a co se z jeho výsledků 🧵 můžeme skutečně naučit
📊 Celé vyhodnocení:
1️⃣ Grok 4 skóre:
• AI2 Reasoning Challenge (Easy): 98 %
• AIME 2025 (matematika): 89 %
• Účetní audit: 84 %
• MMLU-plus: 64 %
• Data4Health: 55 %
Jedná se o nejvyšší skóre – ale pojďme si přiblížit to, co funguje a co stále selhává.
2️⃣ AIME 2025
✅ Zvládá algebru, geometrii, teorii čísel
✅ Dodržuje pravidla formátování LaTeXu
❌ Bojuje s vícekrokovou logikou
❌ Chyby v kombinatorice
❌ Problémy s přesností formátu (např. chybějící °)
3️⃣ Účetní audit
✅ Silný v oblasti etiky a podávání zpráv
✅ Dobrá znalost auditorských principů
❌ Nesprávně interpretuje podobné postupy
❌ Nedokáže rozpoznat jemné rozdíly v odpovědích
❌ Je těžké aplikovat teorii na případy z reálného světa
4️⃣ Skutečný vhled?
Dokonce i model s 98 % v některých úlohách může těžce selhat při nejednoznačnosti nebo namáhání formátováním.
Benchmarky jako AIME a Audit ukazují, jak selhává, nejen jak moc skóruje.
5️⃣ Proč je to důležité:
Potřebujeme transparentní hodnocení podle úkolů – nejen žebříčky.
#Grok4 je výkonný, ale stále křehký v doménách s vysokými sázkami v reálném světě.
🧪 Prozkoumejte celý rozpis:
#AI #LLMs #Benchmarking

1,01K
Top
Hodnocení
Oblíbené