我们刚刚发布了100多个中间检查点以及SmolLM3-3B训练的训练日志。 我们希望这对从事机械解释、训练动态、强化学习和其他主题的研究人员有所帮助 :) 训练日志: -> 通常的训练损失(损失中的间隙是由于混合变化造成的),梯度范数等。 -> 每层/块的指标(l1/l2范数,均值,最小值,最大值,峰度) 检查点: -> 每40k步进行一次预训练(94.4B个token) -> 每4k步进行一次长上下文扩展(9.4B个token) -> 后训练:SFT,中期训练,APO汤,LC专家
23.09K