Algoritmické změny jako GSPO pro Qwen jsou většinou odrazem jemných odlišných potřeb nového základního modelu - kombinace RL datových sad, spíše než aby šlo o zásadní inovaci v základech. Na infrastruktuře a datech záleží mnohem více než na drobných úpravách algoritmu RL.
15,31K