I cambiamenti algoritmici come GSPO per Qwen sono per lo più un riflesso di esigenze sottilmente diverse di una nuova combinazione di modello di base e dataset RL, piuttosto che una grande innovazione nei fondamenti. L'infrastruttura e i dati contano molto di più rispetto a piccoli aggiustamenti agli algoritmi RL.
15,31K