Oggi annunciamo un'anteprima di ARC-AGI-3, il Benchmark di Ragionamento Interattivo con il divario più ampio tra facile per gli esseri umani e difficile per l'IA. Stiamo rilasciando: * 3 giochi (ambienti) * concorso per agenti da $10K * API per agenti IA Punteggi iniziali - IA di Frontiera: 0%, Umani: 100%
o3 (sinistra) e Grok 4 (destra) riproduzioni qui sotto spoiler: nessuno completa un singolo livello
I giochi in anteprima di ARC-AGI-3 devono essere testati sotto pressione. Stiamo organizzando una competizione di agenti di 30 giorni in collaborazione con @huggingface Chiediamo alla comunità di costruire agenti (e vincere soldi!)
289,15K