Acontece que, > GRPO está realizando a média aritmética --> escalonamento no nível do token > GSPO está realizando a escala de nível de sequência de média geométrica --> Verifique o blog se você não tiver tempo para ler.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 de jul. de 2025
Orgulho de apresentar a Otimização de Política de Sequência de Grupo (GSPO), nosso algoritmo RL estável, eficiente e de alto desempenho que alimenta o treinamento de RL em larga escala dos modelos Qwen3 mais recentes (Instruir, Codificador, Pensar) 🚀 📄
64,02K