結果是, > GRPO 正在執行算術平均 --> 代幣級別縮放 > GSPO 正在執行幾何平均 --> 序列級別縮放 如果你沒有時間閱讀,請查看博客。
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR2025年7月25日
自豪地介紹群體序列政策優化(GSPO),我們穩定、高效且性能卓越的強化學習算法,為最新的Qwen3模型(指令、編碼、思考)的大規模強化學習訓練提供支持 🚀 📄
65.94K