Algorithmische Änderungen wie GSPO für Qwen spiegeln hauptsächlich die subtil unterschiedlichen Bedürfnisse eines neuen Basis-Modell - RL-Datensatz-Kombination wider, anstatt eine wesentliche Innovation in den Grundlagen darzustellen. Infrastruktur und Daten sind viel wichtiger als kleine Anpassungen des RL-Algorithmus.
15,31K