一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

強化學習使 LLM 能夠在程式設計/數學競賽中擊敗人類，並推動了最近的進步（OpenAI 的 o 系列、Anthropic 的 Claude 4） RL 會像預訓練一樣實現廣泛的泛化嗎？不是用當前的技術 🧵 1/7

🔗 此處連結和下面的線程：紙：中等：子堆疊： 2/7

現有的 LLM 評估主要評估域內性能，使用在混合域數據上訓練的強化訓練后（RPT）模型，並根據與其訓練域密切相關的基準進行評估。這些設置引入了混雜因素，這些因素掩蓋了 RPT 泛化能力的真實範圍 3/7

我們引入了一個統一的評估框架，該框架使用數學、代碼和知識密集型推理的 16 個基準來隔離和測試 RPT 的跨域泛化。在這個框架內，我們評估了基礎模型和 RPT 策略的各種組合 4/7

📌 我們的主要發現： 1️⃣ RPT 收益大多在域內 2️⃣ 數學和代碼相互推廣得很好 3️⃣ 結構化技能不會轉移到非結構化的知識密集型任務中 5/7

收穫？RPT 功能強大但範圍狹窄它在經過訓練的地方提高了性能，但泛化性很差 6/7

這項工作是與 @ChuxuanHu、@maxYuxuanZhu、@aokellermann、Caleb Biddulph、@PunWai 和 @jasoncbenn 聯合完成的 7/7

2.6K