Aujourd'hui, nous annonçons un aperçu de l'ARC-AGI-3, le Benchmark de Raisonnement Interactif avec le plus grand écart entre facile pour les humains et difficile pour l'IA. Nous publions : * 3 jeux (environnements) * concours d'agents de 10 000 $ * API pour agents IA Scores de départ - IA de pointe : 0 %, Humains : 100 %
o3 (gauche) et Grok 4 (droite) replays ci-dessous spoiler : aucun ne termine un seul niveau
Les jeux ARC-AGI-3 Preview doivent être soumis à des tests de pression. Nous organisons une compétition d'agents de 30 jours en partenariat avec @huggingface Nous appelons la communauté à construire des agents (et à gagner de l'argent !)
296,84K