一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

LLM 如何訓練 LLM，清楚地解釋（帶有視覺效果）：

大型語言模型不僅從原始文本中學習，還從其他模型中學習。例如，Google 的 Gemma 2 和 3 是從更大的 Gemini 模型中提煉出來的。今天我們將介紹三種最常見的知識蒸餾方法。讓我們深入探討吧！🚀

1️⃣ 軟標籤蒸餾使用以下方法生成整個語料庫的標記級軟最大概率： - 一個凍結的、預訓練的教師 LLM - 一個未訓練的學生 LLM 訓練學生 LLM 以匹配教師的概率。查看這個👇

在軟標籤蒸餾中，獲得教師的概率可以確保最大程度的知識轉移。然而，要獲得概率分佈，您必須能夠訪問教師的權重。即使有訪問權限，還會出現另一個挑戰...

假設你的詞彙表有 100k 個標記，而數據有 5 兆個標記。在 fp8 精度下，為每個輸入標記存儲整個詞彙表的 softmax 機率需要 500M GB 的內存。這就是我們跳到第二種技術的地方 ...👇

2️⃣ 硬標籤蒸餾 - 使用教師 LLM 獲取輸出標記。 - 從學生 LLM 獲取 softmax 機率。 - 訓練學生以匹配教師的輸出。 DeepSeek-R1 使用此技術被蒸餾成 Qwen 和 Llama。查看這個視覺 👇

3️⃣ 共同蒸餾 - 從未訓練的教師和學生 LLM 開始。 - 從兩個模型生成當前批次的 softmax 機率。 - 在硬標籤上訓練教師 LLM。 - 訓練學生 LLM 以匹配教師的 softmax 機率。查看這個視覺 👇

Meta 使用共同蒸餾技術來訓練 Llama 4 Scout 和 Maverick，這是基於 Llama 4 Behemoth。當然，在初始階段，教師 LLM 的軟標籤不會準確。這就是為什麼學生 LLM 是使用軟標籤 + 真實的硬標籤進行訓練的。

這三種技術是使用一個 LLM 訓練另一個 LLM。我們討論了： - 軟標籤蒸餾 - 硬標籤蒸餾 - 共同蒸餾這裡再次提供視覺參考 👇

這就結束了！如果你覺得這很有見地，請與你的網絡分享。找到我 → @akshay_pachaar ✔️ 獲取更多有關LLMs、AI代理和機器學習的見解和教程！

97.75K