Qwen の GSPO のようなアルゴリズムの変更は、ファンダメンタルズにおける大きな革新というよりも、新しいベース モデルである RL データセットの組み合わせの微妙な異なるニーズをほとんど反映しています。 インフラとデータは、RLアルゴリズムの小さな調整よりもはるかに重要です。
15.31K