Het blijkt dat, > GRPO de rekenkundige gemiddelde uitvoert --> token-niveau schaling > GSPO de geometrische gemiddelde uitvoert --> sequentie-niveau schaling Bekijk de blog als je geen tijd hebt om te lezen.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 jul, 18:35
Trots om de Group Sequence Policy Optimization (GSPO) voor te stellen, ons stabiele, efficiënte en krachtige RL-algoritme dat de grootschalige RL-training van de nieuwste Qwen3-modellen (Instruct, Coder, Thinking) aandrijft 🚀 📄
61,86K