Алгоритмічні зміни, такі як GSPO для Qwen, в основному є відображенням тонких різних потреб нової базової моделі - комбінації наборів даних RL, а не є основною інновацією в основах. Інфраструктура та дані мають набагато більше значення, ніж незначні коригування алгоритму RL.
15,58K