熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
今天,我們宣布 ARC-AGI-3 的預覽,這是互動推理基準,具有人類容易和 AI 難度之間最大的差距。
我們將發布:
* 3 款遊戲(環境)
* 10,000 美元的代理比賽
* AI 代理 API
起始分數 - 前沿 AI:0%,人類:100%

o3(左)和Grok 4(右)重播如下
劇透:兩者都沒有完成單一關卡
ARC-AGI-3 預覽遊戲需要進行壓力測試。我們正在與 @huggingface 合作舉辦為期 30 天的代理競賽。
我們呼籲社區建立代理(並贏取獎金!)

289.14K
熱門
排行
收藏