Je viens de finir le travail et j'ai essayé Grok-4 sur un problème de topologie de premier cycle. Cela a pris 9 minutes pour réfléchir et ensuite a donné avec confiance une réponse propre, plausible, mais totalement fausse 😅 Je ne pense pas que celui-ci puisse être qualifié de "habilement adversarial." Les modèles d'IA écrasent les benchmarks — mais il reste encore un long chemin à parcourir pour une AGI mathématique réelle.
Elon Musk
Elon Musk10 juil., 16:47
Grok 4 est à un point où il ne se trompe essentiellement jamais sur les questions d'examen de mathématiques/physique, sauf si elles sont habilement adversariales. Il peut identifier les erreurs ou les ambiguïtés dans les questions, puis corriger l'erreur dans la question ou répondre à chaque variante d'une question ambiguë.
663K