probuď se, zlato, nový RL algo spadl
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25. 7. 18:35
S hrdostí představujeme Group Sequence Policy Optimization (GSPO), náš stabilní, efektivní a výkonný RL algoritmus, který pohání rozsáhlé RL školení nejnovějších modelů Qwen3 (Instruct, Coder, Thinking) 🚀 📄
571