熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們剛剛釋出了 100 多個中間檢查點以及 SmolLM3-3B 訓練的訓練日誌。
我們希望這對於從事機械解釋、訓練動態、強化學習及其他主題的研究人員有所幫助 :)
訓練日誌:
-> 通常的訓練損失(損失的差距是由於混合的變化),梯度範數等。
-> 每層/區塊的指標(l1/l2 範數、平均值、最小值、最大值、峰度)
檢查點:
-> 每 40k 步進行預訓練(94.4B 令牌)
-> 每 4k 步進行長上下文擴展(9.4B 令牌)
-> 後訓練:SFT、中期訓練、APO 湯、LC 專家

16.99K
熱門
排行
收藏