Zmiany algorytmiczne, takie jak GSPO dla Qwen, są głównie odzwierciedleniem subtelnych różnych potrzeb nowego połączenia modelu bazowego i zbioru danych RL, a nie dużą innowacją w fundamentach. Infrastruktura i dane mają znacznie większe znaczenie niż drobne poprawki algorytmu RL.
14,26K