Виявляється, > GRPO виконує масштабування на рівні токена з середнім арифметичним --> > GSPO виконує масштабування на рівні послідовності з середнім геометричним --> Загляньте в блог, якщо у вас немає часу на читання.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 лип. 2025 р.
З гордістю представляємо Group Sequence Policy Optimization (GSPO), наш стабільний, ефективний і продуктивний алгоритм RL, який забезпечує широкомасштабне навчання RL останніх моделей Qwen3 (Instruct, Coder, Thinking) 🚀 📄
64,01K