结果是, > GRPO 正在执行算术平均 --> 代币级缩放 > GSPO 正在执行几何平均 --> 序列级缩放 如果你没有时间阅读,请查看博客。
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR2025年7月25日
自豪地介绍群体序列策略优化(GSPO),我们的稳定、高效且性能卓越的强化学习算法,驱动最新Qwen3模型(指令、编码、思考)的规模化强化学习训练 🚀 📄
65.94K