réveille-toi chérie, un nouvel algo RL vient de sortir
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 juil., 18:35
Fier de présenter l'Optimisation de Politique de Séquence de Groupe (GSPO), notre algorithme RL stable, efficace et performant qui alimente l'entraînement RL à grande échelle des derniers modèles Qwen3 (Instruct, Coder, Thinking) 🚀 📄
643