I dag kunngjør vi en forhåndsvisning av ARC-AGI-3, Interactive Reasoning Benchmark med det største gapet mellom lett for mennesker og vanskelig for AI Vi lanserer: * 3 spill (miljøer) * $10K agentkonkurranse * API for AI-agenter Startscore - Frontier AI: 0%, Mennesker: 100%
o3 (venstre) og Grok 4 (høyre) spilles av nedenfor Spoiler: Ingen av dem fullfører et eneste nivå
ARC-AGI-3 Preview-spill må trykktestes. Vi arrangerer en 30-dagers agentkonkurranse i samarbeid med @huggingface Vi oppfordrer fellesskapet til å bygge agenter (og vinne penger!)
296,83K