澄清 o3 的 ARC-AGI 性能 OpenAI 已确认: * 发布的 o3 是与我们在 2024 年 12 月测试的不同模型 * 所有发布的 o3 计算层级都比我们测试的版本小 * 发布的 o3 没有在 ARC-AGI 数据上进行训练,甚至没有使用训练集 * 发布的 o3 针对聊天/产品使用进行了调优,这在 ARC-AGI 上既带来了优势也带来了劣势 ARC 奖将会做的事情: * 我们将重新测试发布的 o3(所有计算层级)并发布更新的结果。之前的分数将标记为“预览” * 我们将尽快测试并发布 o4-mini 的结果 * 一旦可用,我们将测试 o3-pro
127.37K