Acabamos de lanzar más de 100 puntos de control intermedios y nuestros registros de entrenamiento del entrenamiento de SmolLM3-3B. Esperamos que esto pueda ser útil para los investigadores que trabajan en interpretación mecánica, dinámicas de entrenamiento, RL y otros temas :) Registros de entrenamiento: -> Pérdida de entrenamiento habitual (la brecha en la pérdida se debe al cambio de mezcla), grad_norm, etc.. -> Métricas por capa/bloque (norma l1/l2, media, mínimo, máximo, curtosis) Puntos de control: -> pre-entrenamiento cada 40k pasos (94.4B tokens) -> extensión de contexto largo cada 4k pasos (9.4B tokens) -> post-entrenamiento: SFT, medio entrenamiento, sopa APO, experto LC
26,09K