Fier de présenter l'Optimisation de Politique de Séquence de Groupe (GSPO), notre algorithme RL stable, efficace et performant qui alimente l'entraînement RL à grande échelle des derniers modèles Qwen3 (Instruct, Coder, Thinking) 🚀 📄
138,86K