Dnes oznamujeme náhled ARC-AGI-3, benchmarku interaktivního uvažování s nejširším rozdílem mezi snadným pro člověka a obtížným pro umělou inteligenci Vydáváme: * 3 hry (prostředí) * Soutěž agentů v hodnotě 10 000 $ * API agentů AI Startovní skóre - Frontier AI: 0%, Lidé: 100%
O3 (vlevo) a Grok 4 (vpravo) níže spoiler: ani jeden z nich nedokončí ani jednu úroveň
ARC-AGI-3 Preview hry musí být testovány tlakem. Ve spolupráci se společností @huggingface pořádáme 30denní soutěž agentů Vyzýváme komunitu, aby vytvořila agenty (a vyhrála peníze!)
296,83K