Acabamos de publicar 100+ puntos de control intermedios y nuestros registros de entrenamiento del entrenamiento SmolLM3-3B. Esperamos que esto pueda ser útil para el investigador que trabaja en interpretación mecánica, dinámica de entrenamiento, RL y otros temas :) Registros de entrenamiento: -> Pérdida de entrenamiento habitual (la brecha en la pérdida se debe al cambio de mezcla), grad_norm ect.. -> Métricas por capa/bloque (norma l1/l2, media, mín., máx., curtosis) Checkpoints: -> pre-entrenamiento cada paso de 40k (94.4B tokens) -> extensión de contexto larga cada paso de 4k (9.4B tokens) -> post-entrenamiento: SFT, mitad del entrenamiento, sopa APO, experto en LC
26.08K