醒醒,宝贝,新的RL算法发布了
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR7月25日 18:35
自豪地介绍群体序列策略优化(GSPO),我们的稳定、高效且性能卓越的强化学习算法,驱动最新Qwen3模型(指令、编码、思考)的规模化强化学习训练 🚀 📄
638