热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
醒来看到 @scale_AI 的这篇新论文在 @yesnoerror 的趋势动态中。
作者:@anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 和 @SeanHendryx
《作为奖励的评分标准:超越可验证领域的强化学习》
简化:用详细的检查清单来教计算机,而不是模糊的点赞评分,可以让它们在医学和科学问题中学习更好的答案,并清楚地说明它们为何获得奖励。
主要发现:
• 隐式聚合的评分标准奖励使医学基准分数相对于 Likert 基线提高了 28%。
• 尽管使用了更少的评审者,但与基于专家参考答案的奖励相匹配或超过。
可以用于:
• 使用医学安全评分标准微调临床决策支持聊天机器人。
• 训练政策分析或法律推理模型,其中多个主观因素很重要。
详细总结:
作为奖励的评分标准(RaR)被提出作为一种可解释的替代方案,用于在使用强化学习微调大型语言模型(LLMs)时,替代不透明的基于偏好的奖励模型。与其要求人类对整个答案进行排名,不如让领域专家(或由专家参考指导的强大 LLM)编写一个特定于提示的 7-20 个二元标准的检查清单,以捕捉基本事实、推理步骤、风格和常见陷阱。每个标准被标记为必要、重要、可选或陷阱,并赋予权重。在政策训练期间,政策模型(论文中的 Qwen-2.5-7B)每个提示采样 16 个候选答案。一个单独的评审 LLM(GPT-4o-mini 或更小)被提示要么单独评分每个标准(显式聚合),要么阅读完整的评分标准并输出一个整体的 Likert 评分 1-10(隐式聚合)。归一化的分数成为标量奖励,政策通过 GRPO 算法更新。
作者策划了两个 20k 示例训练集——RaR-Medical-20k 和 RaR-Science-20k——通过结合现有的医学和科学推理语料库,并使用 o3-mini 或 GPT-4o 生成合成评分标准。在 HealthBench-1k(医学推理)和 GPQA-Diamond(研究生级物理/化学/生物)上的评估表明,RaR-Implicit 相对于简单的仅使用 Likert 的奖励提高了多达 28%,并且与通过比较专家参考答案计算的奖励相匹配或超过。隐式聚合始终优于显式聚合,表明让评审者决定如何组合标准比固定的手动调整权重效果更好。
评分标准监督也有助于较小的评审模型。当被要求对首选答案与扰动答案进行评分时,评分标准指导的评审者比同样规模的仅使用 Likert 的评审者更可靠地选择首选答案,缩小了 7B 评估者与 GPT-4o-mini 之间的差距。消融实验表明,特定于提示的评分标准优于通用评分标准,多重标准优于仅有必要标准的列表,并且在起草评分标准时访问专家参考显著提高了下游性能。即使是人类编写的高质量合成评分标准的表现也相当,表明可扩展性。
RaR 将可验证奖励的强化学习(RLVR)进行了推广:当评分标准只有一个正确性检查时,该框架会崩溃为 RLVR 的精确匹配奖励。通过明确暴露质量的每个方面,RaR 比神经奖励模型更透明、可审计,并且可能更难以进行奖励黑客。作者讨论了对现实世界代理任务的扩展、通过评分标准权重的动态课程以及正式的鲁棒性研究。
--
每月在 @arXiv 上发布超过 500,000 页的研究。隐藏在其中的是可能改变您工作的突破性见解——但找到它们就像在数据的海洋中寻找钻石。@yesnoerror 切割噪音,提取出对您的项目、投资和发现最有影响力的研究。
// $yne

@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx 在这里注册以获取早期访问:
2.84K
热门
排行
收藏