像 GSPO 這樣的算法變更對於 Qwen 主要反映了新基模型 - RL 數據集組合的微妙不同需求,而不是基本面上的重大創新。 基礎設施和數據比小的 RL 算法調整更為重要。
15.31K