結局のところ、 GRPOは、算術平均>トークンレベルのスケーリングを実行している> GSPOは幾何平均>シーケンスレベルのスケーリングを実行している> 読む時間がない場合は、ブログをチェックしてください。
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR2025年7月25日
最新のQwen3モデル(Instruct、Coder、Thinking 🚀)の大規模なRLトレーニングを強化する、安定した効率的かつパフォーマンスの高いRLアルゴリズムであるGroup Sequence Policy Optimization(GSPO)を紹介できることを誇りに思います 📄
65.94K