Los cambios algorítmicos como GSPO para Qwen son principalmente un reflejo de las diferentes necesidades sutiles de un nuevo modelo base: combinación de conjuntos de datos de RL en lugar de ser una gran innovación en los fundamentos. La infraestructura y los datos importan mucho más que los ajustes menores del algoritmo de RL.
10.37K