熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
LLM 如何訓練 LLM,清楚地解釋(帶有視覺效果):
大型語言模型不僅從原始文本中學習,還從其他模型中學習。
例如,Google 的 Gemma 2 和 3 是從更大的 Gemini 模型中提煉出來的。
今天我們將介紹三種最常見的知識蒸餾方法。
讓我們深入探討吧!🚀
1️⃣ 軟標籤蒸餾
使用以下方法生成整個語料庫的標記級軟最大概率:
- 一個凍結的、預訓練的教師 LLM
- 一個未訓練的學生 LLM
訓練學生 LLM 以匹配教師的概率。
查看這個👇
在軟標籤蒸餾中,獲得教師的概率可以確保最大程度的知識轉移。
然而,要獲得概率分佈,您必須能夠訪問教師的權重。
即使有訪問權限,還會出現另一個挑戰...
假設你的詞彙表有 100k 個標記,而數據有 5 兆個標記。
在 fp8 精度下,為每個輸入標記存儲整個詞彙表的 softmax 機率需要 500M GB 的內存。
這就是我們跳到第二種技術的地方 ...👇
2️⃣ 硬標籤蒸餾
- 使用教師 LLM 獲取輸出標記。
- 從學生 LLM 獲取 softmax 機率。
- 訓練學生以匹配教師的輸出。
DeepSeek-R1 使用此技術被蒸餾成 Qwen 和 Llama。
查看這個視覺 👇
3️⃣ 共同蒸餾
- 從未訓練的教師和學生 LLM 開始。
- 從兩個模型生成當前批次的 softmax 機率。
- 在硬標籤上訓練教師 LLM。
- 訓練學生 LLM 以匹配教師的 softmax 機率。
查看這個視覺 👇
Meta 使用共同蒸餾技術來訓練 Llama 4 Scout 和 Maverick,這是基於 Llama 4 Behemoth。
當然,在初始階段,教師 LLM 的軟標籤不會準確。
這就是為什麼學生 LLM 是使用軟標籤 + 真實的硬標籤進行訓練的。
這三種技術是使用一個 LLM 訓練另一個 LLM。
我們討論了:
- 軟標籤蒸餾
- 硬標籤蒸餾
- 共同蒸餾
這裡再次提供視覺參考 👇
這就結束了!
如果你覺得這很有見地,請與你的網絡分享。
找到我 → @akshay_pachaar ✔️
獲取更多有關LLMs、AI代理和機器學習的見解和教程!

7月25日 20:38
LLM 如何訓練 LLM,清楚地解釋(帶有視覺效果):
97.75K
熱門
排行
收藏