我們剛剛釋出了 100 多個中間檢查點以及 SmolLM3-3B 訓練的訓練日誌。 我們希望這對於從事機械解釋、訓練動態、強化學習及其他主題的研究人員有所幫助 :) 訓練日誌: -> 通常的訓練損失(損失的差距是由於混合的變化),梯度範數等。 -> 每層/區塊的指標(l1/l2 範數、平均值、最小值、最大值、峰度) 檢查點: -> 每 40k 步進行預訓練(94.4B 令牌) -> 每 4k 步進行長上下文擴展(9.4B 令牌) -> 後訓練:SFT、中期訓練、APO 湯、LC 專家
16.99K