今天,我們宣布 ARC-AGI-3 的預覽,這是互動推理基準,具有人類容易和 AI 難度之間最大的差距。 我們將發布: * 3 款遊戲(環境) * 10,000 美元的代理比賽 * AI 代理 API 起始分數 - 前沿 AI:0%,人類:100%
o3(左)和Grok 4(右)重播如下 劇透:兩者都沒有完成單一關卡
ARC-AGI-3 預覽遊戲需要進行壓力測試。我們正在與 @huggingface 合作舉辦為期 30 天的代理競賽。 我們呼籲社區建立代理(並贏取獎金!)
289.14K