Nous venons de publier plus de 100 points de contrôle intermédiaires et nos journaux d'entraînement issus de l'entraînement de SmolLM3-3B. Nous espérons que cela pourra être utile aux chercheurs travaillant sur l'interprétation mécanique, la dynamique d'entraînement, le RL et d'autres sujets :) Journaux d'entraînement : -> Perte d'entraînement habituelle (l'écart dans la perte est dû à un changement de mélange), grad_norm, etc.. -> Métriques par couche/bloc (norme l1/l2, moyenne, min, max, kurtosis) Points de contrôle : -> pré-entraînement tous les 40k pas (94,4B de tokens) -> extension de contexte long tous les 4k pas (9,4B de tokens) -> post-entraînement : SFT, mi-entraînement, soupe APO, expert LC
23,09K