Det viser seg, > GRPO utfører det aritmetiske gjennomsnittet --> skalering på tokennivå > GSPO utfører det geometriske gjennomsnittet --> skalering på sekvensnivå Sjekk bloggen hvis du ikke har tid til å lese.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25. juli 2025
Vi er stolte av å introdusere Group Sequence Policy Optimization (GSPO), vår stabile, effektive og effektive RL-algoritme som driver den storskala RL-treningen av de nyeste Qwen3-modellene (Instruct, Coder, Thinking) 🚀 📄
64,01K