热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们刚刚发布了100多个中间检查点以及SmolLM3-3B训练的训练日志。
我们希望这对从事机械解释、训练动态、强化学习和其他主题的研究人员有所帮助 :)
训练日志:
-> 通常的训练损失(损失中的间隙是由于混合变化造成的),梯度范数等。
-> 每层/块的指标(l1/l2范数,均值,最小值,最大值,峰度)
检查点:
-> 每40k步进行一次预训练(94.4B个token)
-> 每4k步进行一次长上下文扩展(9.4B个token)
-> 后训练:SFT,中期训练,APO汤,LC专家

23.09K
热门
排行
收藏