Acabámos de lançar mais de 100 pontos de verificação intermédios e os nossos registos de treino da formação do SmolLM3-3B. Esperamos que isto possa ser útil para os investigadores que trabalham em interpretação mecânica, dinâmicas de treino, RL e outros tópicos :) Registos de treino: -> Perda de treino habitual (a diferença na perda deve-se à mudança de mistura), grad_norm, etc.. -> Métricas por camada/bloco (norma l1/l2, média, mínimo, máximo, curtose) Pontos de verificação: -> pré-treinamento a cada 40k passos (94.4B tokens) -> extensão de contexto longo a cada 4k passos (9.4B tokens) -> pós-treinamento: SFT, meio-treinamento, sopa APO, especialista LC
28,2K