Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Resulta que,
> GRPO está realizando la media aritmética --> escalado a nivel de token
> GSPO está realizando la media geométrica --> escalado a nivel de secuencia
Consulta el blog si no tienes tiempo para leer.

25 jul 2025
Orgulloso de presentar la Optimización de Políticas de Secuencia de Grupo (GSPO), nuestro algoritmo de RL estable, eficiente y de alto rendimiento que impulsa el entrenamiento de RL a gran escala de los últimos modelos Qwen3 (Instruct, Coder, Thinking) 🚀
📄

65,94K
Parte superior
Clasificación
Favoritos