Schimbările algoritmice, cum ar fi GSPO pentru Qwen, sunt în mare parte o reflectare a nevoilor subtile diferite ale unui nou model de bază - combinația de seturi de date RL, mai degrabă decât o inovație majoră în fundamente. Infrastructura și datele contează mult mai mult decât modificările minore ale algoritmului RL.
15,31K