Mudanças algorítmicas como GSPO para Qwen são principalmente um reflexo de diferentes necessidades sutis de um novo modelo base - combinação de conjunto de dados RL, em vez de ser uma grande inovação nos fundamentos. Infra e dados são muito mais importantes do que pequenos ajustes no algoritmo RL.
12,74K