S hrdostí představujeme Group Sequence Policy Optimization (GSPO), náš stabilní, efektivní a výkonný RL algoritmus, který pohání rozsáhlé RL školení nejnovějších modelů Qwen3 (Instruct, Coder, Thinking) 🚀 📄
78,78K