Алгоритмические изменения, такие как GSPO для Qwen, в основном отражают тонкие различные потребности новой комбинации базовой модели и набора данных RL, а не являются значительной инновацией в основах. Инфраструктура и данные имеют гораздо большее значение, чем незначительные изменения алгоритма RL.
15,31K