Właśnie opublikowaliśmy ponad 100 pośrednich punktów kontrolnych oraz nasze logi treningowe z treningu SmolLM3-3B. Mamy nadzieję, że to będzie przydatne dla badaczy pracujących nad interpretacją mechanizmów, dynamiką treningu, RL i innymi tematami :) Logi treningowe: -> Zwykła strata treningowa (przerwy w stratach są spowodowane zmianą mieszanki), grad_norm itd.. -> Metryki na poziomie warstwy/bloku (norma l1/l2, średnia, minimum, maksimum, kurtoza) Punkty kontrolne: -> wstępne szkolenie co 40k kroków (94,4B tokenów) -> wydłużenie kontekstu co 4k kroków (9,4B tokenów) -> po treningu: SFT, w trakcie treningu, zupa APO, ekspert LC
23,09K