Astăzi, anunțăm o previzualizare a ARC-AGI-3, benchmark-ul de raționament interactiv cu cel mai mare decalaj între ușor pentru oameni și greu pentru AI Lansăm: * 3 jocuri (medii) * Concurs de agent de 10 mii de dolari * API pentru agenți AI Scoruri de start - Frontier AI: 0%, Oameni: 100%
o3 (stânga) și Grok 4 (dreapta) reluări mai jos Spoiler: niciunul nu finalizează un singur nivel
Jocurile ARC-AGI-3 Preview trebuie testate sub presiune. Găzduim o competiție de 30 de zile pentru agenți în parteneriat cu @huggingface Facem apel la comunitate să construiască agenți (și să câștige bani!)
296,85K