Dengan bangga memperkenalkan Group Sequence Policy Optimization (GSPO), algoritme RL kami yang stabil, efisien, dan berkinerja yang mendukung pelatihan RL skala besar dari model Qwen3 terbaru (Instruct, Coder, Thinking) 🚀 📄
138,85K