热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
澄清 o3 的 ARC-AGI 性能
OpenAI 已确认:
* 发布的 o3 是与我们在 2024 年 12 月测试的不同模型
* 所有发布的 o3 计算层级都比我们测试的版本小
* 发布的 o3 没有在 ARC-AGI 数据上进行训练,甚至没有使用训练集
* 发布的 o3 针对聊天/产品使用进行了调优,这在 ARC-AGI 上既带来了优势也带来了劣势
ARC 奖将会做的事情:
* 我们将重新测试发布的 o3(所有计算层级)并发布更新的结果。之前的分数将标记为“预览”
* 我们将尽快测试并发布 o4-mini 的结果
* 一旦可用,我们将测试 o3-pro
127.37K
热门
排行
收藏