Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Grok 4 de @xai está avanzando en los puntos de referencia de razonamiento, pero el panorama es más matizado de lo que sugieren las puntuaciones.
Así es como se compara, y lo que realmente podemos aprender de sus resultados 🧵
📊 Evaluación completa:
1️⃣ Grok 4 puntuaciones:
• Desafío de razonamiento AI2 (fácil): 98%
• AIME 2025 (Matemáticas): 89%
• Auditoría Contable: 84%
• MMLU-Plus: 64%
• Data4Health: 55%
Estas son puntuaciones de primera línea, pero centrémonos en lo que funciona y lo que aún falla.
2️⃣ AIME 2025
✅ Maneja álgebra, geometría, teoría de números
✅ Sigue las reglas de formato de LaTeX
❌ Problemas con la lógica de varios pasos
❌ Errores en combinatoria
❌ Problemas de precisión de formato (por ejemplo, falta °)
3️⃣ Auditoría Contable
✅ Fuerte en ética y presentación de informes
✅ Comprensión sólida de los principios de auditoría
❌ Interpreta mal procedimientos similares
❌ No logra detectar diferencias sutiles en las respuestas
❌ Dificultad para aplicar la teoría a casos del mundo real
4️⃣ ¿La verdadera percepción?
Incluso un modelo con un 98% en algunas tareas puede fallar rotundamente bajo la ambigüedad o el estrés del formato.
Benchmarks como AIME y Audit muestran cómo falla, no solo cuánto puntúa.
5️(Por qué esto es importante):
Necesitamos una evaluación transparente por tarea, no solo tablas de clasificación.
#Grok4 es poderosa, pero sigue siendo frágil en dominios del mundo real de alto riesgo.
🧪 Explora el desglose completo:
#AI #LLMs #Benchmarking

1.05K
Populares
Ranking
Favoritas