Suntem mândri să vă prezentăm Group Sequence Policy Optimization (GSPO), algoritmul nostru RL stabil, eficient și performant care alimentează antrenarea RL la scară largă a celor mai recente modele Qwen3 (Instruct, Coder, Thinking) 🚀 📄
230,2K