熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這裡有一些免費的資訊:
如果我們在預訓練後進行強化學習(RL)太久,我們肯定會覆蓋參數並開始遺忘一些東西。
在原始的 instructGPT 論文中,他們的最佳模型將 RLHF 與預訓練梯度混合,以避免這種模型漂移問題。
然而,現在沒有人再這樣做了。當然,這是一個特定的實現(梯度混合),但它是更廣泛想法(避免遺忘)的具體例子,但隨著我們進行越來越多的 RL 步驟,這似乎是一個被大大忽視的思路。
例如,請參見最近的 ProRL 論文。他們現在進行超過 1000 步的 GRPO,使用非平凡的學習率,並且對偏離原始模型沒有懲罰。預訓練期間在模型內部建立的電路肯定開始衰退。如果沒有,經過 10,000 或 100,000 步的 RL 後,它們將會衰退。
我懷疑這個想法最終會回來;他們可能已經在大型實驗室中這樣做了。



54.8K
熱門
排行
收藏