Algoritmische veranderingen zoals GSPO voor Qwen zijn voornamelijk een weerspiegeling van de subtiele verschillende behoeften van een nieuwe basis model - RL dataset combinatie in plaats van een grote innovatie in de fundamenten. Infrastructuur en data zijn veel belangrijker dan kleine aanpassingen aan de RL-algoritmen.
15,31K