這裡有一些免費的資訊: 如果我們在預訓練後進行強化學習(RL)太久,我們肯定會覆蓋參數並開始遺忘一些東西。 在原始的 instructGPT 論文中,他們的最佳模型將 RLHF 與預訓練梯度混合,以避免這種模型漂移問題。 然而,現在沒有人再這樣做了。當然,這是一個特定的實現(梯度混合),但它是更廣泛想法(避免遺忘)的具體例子,但隨著我們進行越來越多的 RL 步驟,這似乎是一個被大大忽視的思路。 例如,請參見最近的 ProRL 論文。他們現在進行超過 1000 步的 GRPO,使用非平凡的學習率,並且對偏離原始模型沒有懲罰。預訓練期間在模型內部建立的電路肯定開始衰退。如果沒有,經過 10,000 或 100,000 步的 RL 後,它們將會衰退。 我懷疑這個想法最終會回來;他們可能已經在大型實驗室中這樣做了。
54.8K