醒醒,寶貝,新的 RL 演算法出來了
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR7月25日 18:35
自豪地介紹群體序列政策優化(GSPO),我們穩定、高效且性能卓越的強化學習算法,為最新的Qwen3模型(指令、編碼、思考)的大規模強化學習訓練提供支持 🚀 📄
674