Ми щойно випустили 100+ проміжних контрольних точок та наші журнали тренувань зі SmolLM3-3B тренувань. Ми сподіваємося, що ця стаття може бути корисною для дослідників, які працюють над інтерпретацією мехів, динамікою тренувань, RL та іншими темами :) Журнали тренувань: -> Звичайні тренувальні втрати (проміжки в програші пов'язані зі зміною суміші) grad_norm і т.д. -> Метрики на шар/блок (норма l1/l2, середнє значення, мінімальне, максимальне, куртоз) Контрольно: -> попереднє тренування кожні 40 тисяч кроків (94,4 млрд токенів) -> розширення довгого контексту кожні 4 тисячі кроків (9,4 млрд токенів) -> посттренінг: SFT, середина тренування, суп APO, LC експерт
23,08K