Vi har precis släppt 100+ mellanliggande kontrollpunkter och våra träningsloggar från SmolLM3-3B-träning. Vi hoppas att detta kan vara användbart för forskaren som arbetar med mech-tolkning, träningsdynamik, RL och andra ämnen :) Träningsloggar: -> Vanlig träningsförlust (gapet i förlusten beror på byte av blandning), grad_norm ect.. -> Mätvärden per lager/block (l1/l2 norm, medelvärde, min, max, kurtosis) Kontrollpunkter: -> förträning varje 40k-steg (94,4 miljarder tokens) -> lång kontextförlängning varje 4k-steg (9,4 B-token) -> efter träning: SFT, mitt i träningen, APO-soppa, LC-expert
23,09K