热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
o3 Pro on ARC-AGI Semi Private 评估结果
ARC-AGI-1 的:
* 低:44%,1.64 USD/任务
* 中等:57%,3.18 美元/任务
* 高:59%,4.16 USD/任务
ARC-AGI-2 的:
* 所有推理努力:<5%,4-7 美元/任务
要点:
* O3-Pro 与 O3 性能一致
* o3 的新价格设定了 ARC-AGI-1 Frontier
请注意,o3 Pro *不是*我们在2024年12月测试的同一型号(o3-preview)
OpenAI已明确确认这一点。有关更多信息,请参见参考推文。

2025年4月17日
澄清 o3 的 ARC-AGI 性能
OpenAI 已确认:
* 发布的 o3 是与我们在 2024 年 12 月测试的不同模型
* 所有发布的 o3 计算层级都比我们测试的版本小
* 发布的 o3 没有在 ARC-AGI 数据上进行训练,甚至没有使用训练集
* 发布的 o3 针对聊天/产品使用进行了调优,这在 ARC-AGI 上既带来了优势也带来了劣势
ARC 奖将会做的事情:
* 我们将重新测试发布的 o3(所有计算层级)并发布更新的结果。之前的分数将标记为“预览”
* 我们将尽快测试并发布 o4-mini 的结果
* 一旦可用,我们将测试 o3-pro
o3的结果已更新,以反映价格降低80%的情况
图表中新增了 o3(高推理)和 o4-mini(高推理)的数据点。它们之前因模型超时而被排除。
OpenAI 的新“后台模式”使我们能够在高计算设置下处理这些模型。
查看排行榜:
重现结果:
108.71K
热门
排行
收藏