Оказывается, > GRPO выполняет арифметическое среднее --> масштабирование на уровне токенов > GSPO выполняет геометрическое среднее --> масштабирование на уровне последовательностей Проверьте блог, если у вас нет времени читать.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 июл. 2025 г.
С гордостью представляем оптимизацию политики последовательности группы (GSPO) — наш стабильный, эффективный и производительный алгоритм RL, который обеспечивает крупномасштабное обучение RL последних моделей Qwen3 (Instruct, Coder, Thinking) 🚀 📄
64,02K