热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
建立更好基准的公司将比建立更好模型的公司增长得更快
AI已经能够解决国际象棋、考试和编程比赛,但仍然无法可靠地预订晚餐
瓶颈已从智能转移到评估

2025年8月27日
这是2025年OpenAI研究员@ShunyuYao12撰写的最佳博客文章之一。
“我们正处于AI的中场休息,”
这是一本关于AI研究和初创生态系统中最重要的内容,以及如何为此做好准备的剧本。
几十年来,AI研究专注于算法和新模型,以超越基准。
但有一些重要的事情改变了游戏:“RL终于可以推广。”
工作的“配方”:大规模语言预训练(先验)+规模 + 在RL循环中的推理作为行动。
这是基准攀升的结果。游戏的转变:从解决问题到定义正确的问题。评估成为中心舞台。
现在的核心基准是“效用问题”。基准并不真正适用于现实世界的任务。
所以这是下半场的剧本:发明与真实效用相关的评估设置;然后在这些新规则下应用配方以获胜。
在RL中,关键三要素是环境、算法和先验。我们花了很多时间在最佳算法上,但算法会过拟合它们所处的环境。
对于“下半场”,评估 = 环境设计:构建更接近现实的设置(人类在环中、非独立同分布、顺序/带记忆)以推动真实效用,而不仅仅是基准胜利。

375
热门
排行
收藏