Z dumą przedstawiamy Politykę Optymalizacji Sekwencji Grupowej (GSPO), nasz stabilny, wydajny i efektywny algorytm RL, który napędza szkolenie RL na dużą skalę najnowszych modeli Qwen3 (Instruct, Coder, Thinking) 🚀 📄
138,86K