Acabo de salir del trabajo y probé Grok-4 en un problema de topología de pregrado. Pensó durante 9 minutos y luego dio una respuesta limpia, plausible, pero totalmente incorrecta 😅 No creo que este califique como "habilidosamente adversarial". Los modelos de IA están aplastando los benchmarks, pero aún queda un largo camino por recorrer para lograr una AGI matemática real.
Elon Musk
Elon Musk10 jul, 16:47
Grok 4 está en un punto en el que esencialmente nunca se equivoca en preguntas de examen de matemáticas/física, a menos que sean hábilmente adversariales. Puede identificar errores o ambigüedades en las preguntas, luego corregir el error en la pregunta o responder a cada variante de una pregunta ambigua.
663K