Abbiamo appena rilasciato oltre 100 checkpoint intermedi e i nostri log di addestramento dal training di SmolLM3-3B. Speriamo che questo possa essere utile ai ricercatori che lavorano su interpretazione meccanica, dinamiche di addestramento, RL e altri argomenti :) Log di addestramento: -> Perdita di addestramento abituale (il divario nella perdita è dovuto al cambiamento della miscela), grad_norm ecc.. -> Metriche per layer/blocco (norma l1/l2, media, min, max, curtosi) Checkpoint: -> pre-addestramento ogni 40k passi (94.4B token) -> estensione del contesto lungo ogni 4k passi (9.4B token) -> post-addestramento: SFT, mid-training, APO soup, esperto LC
16,99K