LLM 如何訓練 LLM,清楚地解釋(帶有視覺效果):
大型語言模型不僅從原始文本中學習,還從其他模型中學習。 例如,Google 的 Gemma 2 和 3 是從更大的 Gemini 模型中提煉出來的。 今天我們將介紹三種最常見的知識蒸餾方法。 讓我們深入探討吧!🚀
1️⃣ 軟標籤蒸餾 使用以下方法生成整個語料庫的標記級軟最大概率: - 一個凍結的、預訓練的教師 LLM - 一個未訓練的學生 LLM 訓練學生 LLM 以匹配教師的概率。 查看這個👇
在軟標籤蒸餾中,獲得教師的概率可以確保最大程度的知識轉移。 然而,要獲得概率分佈,您必須能夠訪問教師的權重。 即使有訪問權限,還會出現另一個挑戰...
假設你的詞彙表有 100k 個標記,而數據有 5 兆個標記。 在 fp8 精度下,為每個輸入標記存儲整個詞彙表的 softmax 機率需要 500M GB 的內存。 這就是我們跳到第二種技術的地方 ...👇
2️⃣ 硬標籤蒸餾 - 使用教師 LLM 獲取輸出標記。 - 從學生 LLM 獲取 softmax 機率。 - 訓練學生以匹配教師的輸出。 DeepSeek-R1 使用此技術被蒸餾成 Qwen 和 Llama。 查看這個視覺 👇
3️⃣ 共同蒸餾 - 從未訓練的教師和學生 LLM 開始。 - 從兩個模型生成當前批次的 softmax 機率。 - 在硬標籤上訓練教師 LLM。 - 訓練學生 LLM 以匹配教師的 softmax 機率。 查看這個視覺 👇
Meta 使用共同蒸餾技術來訓練 Llama 4 Scout 和 Maverick,這是基於 Llama 4 Behemoth。 當然,在初始階段,教師 LLM 的軟標籤不會準確。 這就是為什麼學生 LLM 是使用軟標籤 + 真實的硬標籤進行訓練的。
這三種技術是使用一個 LLM 訓練另一個 LLM。 我們討論了: - 軟標籤蒸餾 - 硬標籤蒸餾 - 共同蒸餾 這裡再次提供視覺參考 👇
這就結束了! 如果你覺得這很有見地,請與你的網絡分享。 找到我 → @akshay_pachaar ✔️ 獲取更多有關LLMs、AI代理和機器學習的見解和教程!
Akshay 🚀
Akshay 🚀7月25日 20:38
LLM 如何訓練 LLM,清楚地解釋(帶有視覺效果):
97.75K