強化學習使 LLM 能夠在程式設計/數學競賽中擊敗人類,並推動了最近的進步(OpenAI 的 o 系列、Anthropic 的 Claude 4) RL 會像預訓練一樣實現廣泛的泛化嗎?不是用當前的技術 🧵 1/7
🔗 此處連結和下面的線程: 紙: 中等: 子堆疊: 2/7
現有的 LLM 評估主要評估域內性能,使用在混合域數據上訓練的強化訓練后 (RPT) 模型,並根據與其訓練域密切相關的基準進行評估。這些設置引入了混雜因素,這些因素掩蓋了 RPT 泛化能力的真實範圍 3/7
我們引入了一個統一的評估框架,該框架使用數學、代碼和知識密集型推理的 16 個基準來隔離和測試 RPT 的跨域泛化。在這個框架內,我們評估了基礎模型和 RPT 策略的各種組合 4/7
📌 我們的主要發現: 1️⃣ RPT 收益大多在域內 2️⃣ 數學和代碼相互推廣得很好 3️⃣ 結構化技能不會轉移到非結構化的知識密集型任務中 5/7
收穫?RPT 功能強大但範圍狹窄 它在經過訓練的地方提高了性能,但泛化性很差 6/7
這項工作是與 @ChuxuanHu、@maxYuxuanZhu、@aokellermann、Caleb Biddulph、@PunWai 和 @jasoncbenn 聯合完成的 7/7
2.6K