прокинутися крихітко новий RL algo впав
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 лип., 18:35
З гордістю представляємо Group Sequence Policy Optimization (GSPO), наш стабільний, ефективний і продуктивний алгоритм RL, який забезпечує широкомасштабне навчання RL останніх моделей Qwen3 (Instruct, Coder, Thinking) 🚀 📄
667