Les changements algorithmiques comme GSPO pour Qwen reflètent principalement des besoins légèrement différents d'une nouvelle combinaison de modèle de base - ensemble de données RL, plutôt que d'être une innovation majeure dans les fondamentaux. L'infrastructure et les données comptent beaucoup plus que de légers ajustements d'algorithmes RL.
14,26K