Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acabamos de lanzar más de 100 puntos de control intermedios y nuestros registros de entrenamiento del entrenamiento de SmolLM3-3B.
Esperamos que esto pueda ser útil para los investigadores que trabajan en interpretación mecánica, dinámicas de entrenamiento, RL y otros temas :)
Registros de entrenamiento:
-> Pérdida de entrenamiento habitual (la brecha en la pérdida se debe al cambio de mezcla), grad_norm, etc..
-> Métricas por capa/bloque (norma l1/l2, media, mínimo, máximo, curtosis)
Puntos de control:
-> pre-entrenamiento cada 40k pasos (94.4B tokens)
-> extensión de contexto largo cada 4k pasos (9.4B tokens)
-> post-entrenamiento: SFT, medio entrenamiento, sopa APO, experto LC

26,09K
Parte superior
Clasificación
Favoritos