一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们刚刚发布了100多个中间检查点以及SmolLM3-3B训练的训练日志。我们希望这对从事机械解释、训练动态、强化学习和其他主题的研究人员有所帮助 :) 训练日志： -> 通常的训练损失（损失中的间隙是由于混合变化造成的），梯度范数等。 -> 每层/块的指标（l1/l2范数，均值，最小值，最大值，峰度）检查点： -> 每40k步进行一次预训练（94.4B个token） -> 每4k步进行一次长上下文扩展（9.4B个token） -> 后训练：SFT，中期训练，APO汤，LC专家

23.09K