Hoje, estamos a anunciar uma pré-visualização do ARC-AGI-3, o Benchmark de Raciocínio Interativo com a maior diferença entre fácil para humanos e difícil para IA Estamos a lançar: * 3 jogos (ambientes) * concurso de agentes de $10K * API de agentes de IA Pontuações iniciais - IA de Fronteira: 0%, Humanos: 100%
o3 (esquerda) e Grok 4 (direita) replays abaixo spoiler: nenhum completa um único nível
Os jogos de pré-visualização do ARC-AGI-3 precisam de ser testados sob pressão. Estamos a organizar uma competição de agentes de 30 dias em parceria com @huggingface Estamos a convocar a comunidade para construir agentes (e ganhar dinheiro!)
296,84K