bangun sayang baru RL algo jatuh
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 Jul, 18.35
Dengan bangga memperkenalkan Group Sequence Policy Optimization (GSPO), algoritme RL kami yang stabil, efisien, dan berkinerja yang mendukung pelatihan RL skala besar dari model Qwen3 terbaru (Instruct, Coder, Thinking) 🚀 📄
675