像GSPO这样的算法变化对于Qwen来说,主要反映了新基础模型与RL数据集组合的微妙不同需求,而不是基础上的重大创新。 基础设施和数据比小的RL算法调整更为重要。
15.31K