obudź się kochanie, nowy algorytm RL został wydany
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 lip, 18:35
Z dumą przedstawiamy Politykę Optymalizacji Sekwencji Grupowej (GSPO), nasz stabilny, wydajny i efektywny algorytm RL, który napędza szkolenie RL na dużą skalę najnowszych modeli Qwen3 (Instruct, Coder, Thinking) 🚀 📄
644