svegliati amore, è uscito un nuovo algoritmo RL
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 lug, 18:35
Siamo orgogliosi di presentare l'Ottimizzazione della Politica di Sequenza di Gruppo (GSPO), il nostro algoritmo RL stabile, efficiente e performante che alimenta l'addestramento RL su larga scala dei più recenti modelli Qwen3 (Instruct, Coder, Thinking) 🚀 📄
639