våkne opp babe ny RL algo droppet
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25. juli, 18:35
Vi er stolte av å introdusere Group Sequence Policy Optimization (GSPO), vår stabile, effektive og effektive RL-algoritme som driver den storskala RL-treningen av de nyeste Qwen3-modellene (Instruct, Coder, Thinking) 🚀 📄
664