一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我們剛剛釋出了 100 多個中間檢查點以及 SmolLM3-3B 訓練的訓練日誌。我們希望這對於從事機械解釋、訓練動態、強化學習及其他主題的研究人員有所幫助 :) 訓練日誌： -> 通常的訓練損失（損失的差距是由於混合的變化），梯度範數等。 -> 每層/區塊的指標（l1/l2 範數、平均值、最小值、最大值、峰度）檢查點： -> 每 40k 步進行預訓練（94.4B 令牌） -> 每 4k 步進行長上下文擴展（9.4B 令牌） -> 後訓練：SFT、中期訓練、APO 湯、LC 專家

16.99K