Los cambios algorítmicos como GSPO para Qwen son principalmente un reflejo de las sutiles necesidades diferentes de una nueva combinación de modelo base y conjunto de datos de RL, en lugar de ser una innovación importante en los fundamentos. La infraestructura y los datos importan mucho más que pequeños ajustes en el algoritmo de RL.
14,27K