分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

無料のアルファ版をいくつか紹介します。事前トレーニング後にRLを長時間行うと、必ずパラメータを上書きして忘れ始めます元の instructGPT 論文では、彼らの最良のモデルは、このモデルドリフトの問題を正確に回避するために、RLHF と事前トレーニング勾配を混合しましたしかし、もう誰もこれをしていません。確かに、これはより広いアイデア(忘れを避ける)の特定のインスタンス化(グラデーションミキシング)ですが、RLのステップをどんどん進めるにつれて、非常に見落とされがちな考え方のように思えますたとえば、最近のProRL論文を参照してください。彼らは現在、1000 ステップ以上の GRPO を実行しており、学習率はそれほど高くなく、元のモデルから逸脱してもペナルティはありません。事前学習中にモデル内部に構築された回路は確実に減衰し始めています。そうでない場合は、10kまたは100kのRLステップ後に行われますこのアイデアはいずれ戻ってくると思います。彼らはおそらくすでに大きな研究所でこれを行っているでしょう

54.8K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable