wake up ベイブの新しい RL アルゴがドロップされました
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR7月25日 18:35
最新のQwen3モデル(Instruct、Coder、Thinking 🚀)の大規模なRLトレーニングを強化する、安定した効率的かつパフォーマンスの高いRLアルゴリズムであるGroup Sequence Policy Optimization(GSPO)を紹介できることを誇りに思います 📄
640