vakna brud ny RL algo tappade
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 juli 18:35
Vi är stolta över att presentera Group Sequence Policy Optimization (GSPO), vår stabila, effektiva och högpresterande RL-algoritm som driver den storskaliga RL-träningen av de senaste Qwen3-modellerna (Instruct, Coder, Thinking) 🚀 📄
767