Ternyata, > GRPO melakukan penskalaan tingkat token --> rata-rata aritmatika > GSPO melakukan penskalaan tingkat urutan rata-rata geometris --> Periksa blog jika Anda tidak punya waktu untuk membaca.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 Jul 2025
Dengan bangga memperkenalkan Group Sequence Policy Optimization (GSPO), algoritme RL kami yang stabil, efisien, dan berkinerja yang mendukung pelatihan RL skala besar dari model Qwen3 terbaru (Instruct, Coder, Thinking) 🚀 📄
65,94K