無料のアルファ版をいくつか紹介します。 事前トレーニング後にRLを長時間行うと、必ずパラメータを上書きして忘れ始めます 元の instructGPT 論文では、彼らの最良のモデルは、このモデル ドリフトの問題を正確に回避するために、RLHF と事前トレーニング勾配を混合しました しかし、もう誰もこれをしていません。 確かに、これはより広いアイデア(忘れを避ける)の特定のインスタンス化(グラデーションミキシング)ですが、RLのステップをどんどん進めるにつれて、非常に見落とされがちな考え方のように思えます たとえば、最近のProRL論文を参照してください。彼らは現在、1000 ステップ以上の GRPO を実行しており、学習率はそれほど高くなく、元のモデルから逸脱してもペナルティはありません。 事前学習中にモデル内部に構築された回路は確実に減衰し始めています。そうでない場合は、10kまたは100kのRLステップ後に行われます このアイデアはいずれ戻ってくると思います。 彼らはおそらくすでに大きな研究所でこれを行っているでしょう
54.8K