Se dovedește, > GRPO efectuează scalarea mediei aritmetice --> la nivel de token > GSPO efectuează scalarea mediei geometrice --> la nivel de secvență Verificați blogul dacă nu aveți timp să citiți.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 iul. 2025
Suntem mândri să vă prezentăm Group Sequence Policy Optimization (GSPO), algoritmul nostru RL stabil, eficient și performant care alimentează antrenarea RL la scară largă a celor mai recente modele Qwen3 (Instruct, Coder, Thinking) 🚀 📄
64,01K