Si scopre che, > GRPO sta eseguendo la media aritmetica --> scalatura a livello di token > GSPO sta eseguendo la media geometrica --> scalatura a livello di sequenza Controlla il blog se non hai tempo per leggere.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 lug 2025
Siamo orgogliosi di presentare l'Ottimizzazione della Politica di Sequenza di Gruppo (GSPO), il nostro algoritmo RL stabile, efficiente e performante che alimenta l'addestramento RL su larga scala dei più recenti modelli Qwen3 (Instruct, Coder, Thinking) 🚀 📄
65,94K