Algoritmiska förändringar som GSPO för Qwen är oftast en återspegling av subtila olika behov hos en ny kombination av basmodell och RL-datauppsättning snarare än att vara en stor innovation i grunden. Infra och data är mycket viktigare än mindre justeringar av RL-algoritmen.
15,32K