Ukázalo se, > GRPO provádí aritmetický průměr > škálování na úrovni tokenu > GSPO provádí změnu měřítka na úrovni sekvence pomocí geometrického průměru > Pokud nemáte čas číst, podívejte se na blog.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25. 7. 18:35
S hrdostí představujeme Group Sequence Policy Optimization (GSPO), náš stabilní, efektivní a výkonný RL algoritmus, který pohání rozsáhlé RL školení nejnovějších modelů Qwen3 (Instruct, Coder, Thinking) 🚀 📄
64,01K