Grok 4 está en un punto en el que esencialmente nunca se equivoca en preguntas de examen de matemáticas/física, a menos que sean hábilmente adversariales. Puede identificar errores o ambigüedades en las preguntas, luego corregir el error en la pregunta o responder a cada variante de una pregunta ambigua.
Deedy
Deedy10 jul, 14:07
Es una locura que Elon Musk lo haya logrado de nuevo, aplastando absolutamente las guerras de IA con Grok 4. Resumiendo los anuncios clave: — El gasto en RL post-entrenamiento == gasto en preentrenamiento — $3/M de entrada, $15/M de salida, 256k de contexto, precio 2x más allá de 128k — #1 en el Último Examen de la Humanidad (problemas generales difíciles) 44.4%, #2 es 26.9% — #1 en GPQA (problemas difíciles de posgrado) 88.9%. #2 es 86.4% — #1 en AIME 2025 (Matemáticas) 100%, #2 es 98.4% — #1 en Matemáticas de Harvard MIT 96.7%, #2 es 82.5% — #1 en USAMO25 (Matemáticas) 61.9%, #2 es 49.4% — #1 en ARC-AGI-2 (fácil para humanos, difícil para IA) 15.9%, #2 es 8.6% — #1 en LiveCodeBench (Ene-May) 79.4%, #2 es 75.8% Grok 4 es “potencialmente mejor que el nivel de doctorado en cada materia sin excepción”.. y es bastante barato. Un momento masivo en las guerras de IA y Elon ha venido a jugar.
6,33M