Il s'avère que, > GRPO effectue la moyenne arithmétique --> mise à l'échelle au niveau des tokens > GSPO effectue la moyenne géométrique --> mise à l'échelle au niveau des séquences Consultez le blog si vous n'avez pas le temps de lire.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 juil., 18:35
Fier de présenter l'Optimisation de Politique de Séquence de Groupe (GSPO), notre algorithme RL stable, efficace et performant qui alimente l'entraînement RL à grande échelle des derniers modèles Qwen3 (Instruct, Coder, Thinking) 🚀 📄
61,85K