Hari ini, kami mengumumkan pratinjau ARC-AGI-3, Tolok Ukur Penalaran Interaktif dengan kesenjangan terlebar antara mudah bagi manusia dan sulit untuk AI Kami merilis: * 3 permainan (lingkungan) * Kontes agen $10K * API agen AI Skor awal - Frontier AI: 0%, Manusia: 100%
o3 (kiri) dan Grok 4 (kanan) diputar ulang di bawah ini Spoiler: Tidak ada yang menyelesaikan satu level pun
Game pratinjau ARC-AGI-3 perlu diuji tekanan. Kami menyelenggarakan kompetisi agen selama 30 hari dalam kemitraan dengan @huggingface Kami menyerukan kepada komunitas untuk membangun agen (dan memenangkan uang!)
289,15K