熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
醒來看到 @scale_AI 的這篇新論文在 @yesnoerror 的趨勢動態中。
作者:@anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011, 和 @SeanHendryx
"作為獎勵的評分標準:超越可驗證領域的強化學習"
簡化:用詳細的檢查清單來教導計算機,而不是模糊的讚成評分,讓它們在醫學和科學問題中學習更好的答案,並清楚地表明為什麼它們獲得了獎勵。
主要發現:
• 隱式聚合的評分標準獎勵使醫學基準分數相對於 Likert 基線提高了 28%。
• 儘管使用較小的評審,但仍然與基於專家參考答案的獎勵相匹配或超過。
可以用於:
• 使用醫學安全評分標準微調臨床決策支持聊天機器人。
• 訓練政策分析或法律推理模型,其中多個主觀因素很重要。
詳細摘要:
作為獎勵的評分標準(RaR)被提出作為一種可解釋的替代方案,用於在用強化學習微調大型語言模型(LLMs)時,取代不透明的基於偏好的獎勵模型。與其要求人類對整個答案進行排名,不如讓領域專家(或由專家參考指導的強大 LLM)編寫一個特定於提示的 7–20 個二元標準的檢查清單,以捕捉基本事實、推理步驟、風格和常見陷阱。每個標準被標記為必要、重要、可選或陷阱,並給予權重。在政策訓練期間,政策模型(論文中的 Qwen-2.5-7B)每個提示抽樣 16 個候選答案。一個單獨的評審 LLM(GPT-4o-mini 或更小)被提示要麼單獨評分每個標準(顯式聚合),要麼閱讀完整的評分標準並輸出一個整體的 Likert 評分 1–10(隱式聚合)。標準化的分數成為標量獎勵,政策則使用 GRPO 算法進行更新。
作者策劃了兩個 20k 範例的訓練集——RaR-Medical-20k 和 RaR-Science-20k——通過結合現有的醫學和科學推理語料庫並生成合成評分標準來實現,使用 o3-mini 或 GPT-4o。對 HealthBench-1k(醫學推理)和 GPQA-Diamond(研究生級物理/化學/生物)進行評估顯示,RaR-Implicit 相對於簡單的僅基於 Likert 的獎勵提高了高達 28%,並且與通過比較專家參考答案計算的獎勵相匹配或超過。隱式聚合始終優於顯式聚合,表明讓評審決定如何組合標準比固定的手動調整權重更有效。
評分標準監督也有助於較小的評審模型。當被要求評價首選答案與擾動答案時,受評分標準指導的評審比同樣大小的僅基於 Likert 的評審更可靠地選擇首選答案,縮小了 7B 評估者和 GPT-4o-mini 之間的差距。消融實驗顯示,特定於提示的評分標準優於通用的,多個標準優於僅必要的列表,並且在編寫評分標準時獲得專家參考的訪問顯著提高了下游性能。即使是人類編寫的高質量合成評分標準的表現也相當,這表明可擴展性。
RaR 概括了具有可驗證獎勵的強化學習(RLVR):當評分標準只有一個正確性檢查時,該框架會崩潰為 RLVR 的精確匹配獎勵。通過明確暴露每個質量方面,RaR 更加透明、可審計,並且比神經獎勵模型更難以獲得獎勵。作者討論了對現實世界代理任務的擴展、通過評分標準權重的動態課程以及正式的穩健性研究。
--
每月在 @arXiv 上發表超過 500,000 頁的研究。隱藏在其中的是可能改變您工作的突破性見解——但找到它們就像在數據的海洋中尋找鑽石。@yesnoerror 剪除噪音,為您的項目、投資和發現呈現最具影響力的研究。
// $yne

@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx 在這裡註冊以獲得早期訪問:
2.79K
熱門
排行
收藏