o3 Pro on ARC-AGI Semi Private 评估结果 ARC-AGI-1 的: * 低:44%,1.64 USD/任务 * 中等:57%,3.18 美元/任务 * 高:59%,4.16 USD/任务 ARC-AGI-2 的: * 所有推理努力:<5%,4-7 美元/任务 要点: * O3-Pro 与 O3 性能一致 * o3 的新价格设定了 ARC-AGI-1 Frontier
请注意,o3 Pro *不是*我们在2024年12月测试的同一型号(o3-preview) OpenAI已明确确认这一点。有关更多信息,请参见参考推文。
ARC Prize
ARC Prize2025年4月17日
澄清 o3 的 ARC-AGI 性能 OpenAI 已确认: * 发布的 o3 是与我们在 2024 年 12 月测试的不同模型 * 所有发布的 o3 计算层级都比我们测试的版本小 * 发布的 o3 没有在 ARC-AGI 数据上进行训练,甚至没有使用训练集 * 发布的 o3 针对聊天/产品使用进行了调优,这在 ARC-AGI 上既带来了优势也带来了劣势 ARC 奖将会做的事情: * 我们将重新测试发布的 o3(所有计算层级)并发布更新的结果。之前的分数将标记为“预览” * 我们将尽快测试并发布 o4-mini 的结果 * 一旦可用,我们将测试 o3-pro
o3的结果已更新,以反映价格降低80%的情况
图表中新增了 o3(高推理)和 o4-mini(高推理)的数据点。它们之前因模型超时而被排除。 OpenAI 的新“后台模式”使我们能够在高计算设置下处理这些模型。
查看排行榜: 重现结果:
108.71K