🧠 Grok 4 de @xai face pași în reperele de raționament, dar imaginea este mai nuanțată decât sugerează scorurile. Iată cum se compară și ce putem învăța cu adevărat din rezultatele 🧵 sale 📊 Evaluare completă: 1️⃣ Scoruri Grok 4: • Provocarea raționamentului AI2 (ușor): 98% • AIME 2025 (matematică): 89% • Audit contabil: 84% • MMLU-Plus: 64% • Data4Health: 55% Acestea sunt scoruri de top - dar să mărim ce funcționează și ce încă eșuează. 2️⃣ AIME 2025 ✅ Se ocupă de algebră, geometrie, teoria numerelor ✅ Respectă regulile de formatare LaTeX ❌ Se luptă cu logica în mai mulți pași ❌ Erori în combinatorică ❌ Probleme de precizie a formatului (de exemplu, lipsă °) 3️⃣ Audit contabil ✅ Puternic în etică și raportare ✅ Înțelegere solidă a principiilor de audit ❌ Interpretează greșit proceduri similare ❌ Nu reușește să identifice diferențele subtile de răspuns ❌ Sunt greu să aplicăm teoria la cazuri din lumea reală 4️⃣ Adevărata perspectivă? Chiar și un model cu 98% pe unele sarcini poate eșua greu din cauza ambiguității sau a stresului de formatare. Benchmark-uri precum AIME și Audit arată cum eșuează, nu doar cât de mult punctează. 5️⃣ De ce contează acest lucru: Avem nevoie de o evaluare transparentă, pe sarcină - nu doar de clasamente. #Grok4 este puternică, dar totuși fragilă în domenii cu mize mari, din lumea reală. 🧪 Explorați defalcarea completă: #AI #LLMs #Benchmarking
1,06K