SmolLM3-3Bトレーニングから100+の中間チェックポイントとトレーニングログをリリースしました。 メカ解釈、トレーニングダイナミクス、RLなどのトピックに取り組んでいる研究者の皆様のお役に立てば幸いです:) トレーニングログ: -> 通常のトレーニング損失(損失のギャップは混合液の変化によるもの)などgrad_norm。 -> レイヤー/ブロックごとのメトリック (l1/l2 ノルム、平均、最小、最大、尖度) チェックポイント: -40kステップごとに>事前トレーニング(94.4Bトークン) -4kステップごとに>長いコンテキスト拡張(9.4Bトークン) -トレーニング後>:SFT、トレーニング中、APOスープ、LCエキスパート
26.08K