Vi är stolta över att presentera Group Sequence Policy Optimization (GSPO), vår stabila, effektiva och högpresterande RL-algoritm som driver den storskaliga RL-träningen av de senaste Qwen3-modellerna (Instruct, Coder, Thinking) 🚀 📄
230,21K