LLMがLLMをトレーニングする方法、明確に説明されています(ビジュアル付き):
LLM は生のテキストだけでなく、他のモデルからも学習します。 たとえば、Google の Gemma 2 と 3 は、より大きな Gemini モデルから抽出されました。 今日は、最も一般的な3つの蒸留方法について説明します。 飛び込んでみましょう!🚀
1️⃣ ソフトラベル蒸留 以下を使用して、コーパス全体にわたってトークンレベルのソフトマックス確率を生成します。 - 凍結された事前トレーニング済み教師 LLM - トレーニングを受けていない学生 LLM 教師の確率に一致するように学生のLLMをトレーニングします。 これがいいと思います👇
ソフトラベル蒸留では、教師の確率にアクセスできることで、知識の伝達が最大限に保証されます。 ただし、確率分布を取得するには、教師の重みにアクセスできる必要があります。 アクセスがあっても、別の課題が生じます...
語彙に 100 個のトークンがあり、データに 5 兆個のトークンがあるとします。 各入力トークンの語彙全体にわたってソフトマックス確率を格納するには、fp8精度で500M GBのメモリが必要です。 ここで、2番目のテクニックにジャンプします...👇
2️⃣ハードラベル蒸留 - 教師用LLMを使用して出力トークンを取得します。 - 学生LLMからソフトマックス確率を取得します。 - 教師の出力に一致するように生徒をトレーニングします。 DeepSeek-R1 は、この手法を使用して Qwen & Llama に蒸留されました。 このビジュアル👇を確認する
3️⃣ 共蒸留 - トレーニングを受けていない教師と学生の LLM から始めます。 - 両方のモデルから現在のバッチに対してソフトマックス プローブを生成します。 - ハードラベルで教師LLMをトレーニングします。 - 教師のソフトマックス確率に一致するように学生のLLMをトレーニングします。 このビジュアル👇を確認する
メタは共蒸留を使用して、ラマ 4 スカウトとラマ 4 ベヒモスのマーベリックをトレーニングしました。 もちろん、初期段階では、教師 LLM のソフト ラベルは正確ではありません。 そのため、Student LLM はソフト ラベル + グラウンド トゥルース ハード ラベルの両方を使用してトレーニングされます。
これらは、ある LLM を別の LLM を使用してトレーニングするための 3 つの手法でした。 私たちは話し合いました: - ソフトラベル蒸留 - ハードラベル蒸留 - 共蒸留 参考までに👇再びビジュアルを紹介します
これで終わりです! 洞察力に富んだと思われた場合は、ネットワークと再共有してください。 → @akshay_pachaar ✔️ LLM、AI エージェント、機械学習に関するその他の洞察とチュートリアルについては、こちらをご覧ください。
Akshay 🚀
Akshay 🚀7月25日 20:38
LLMがLLMをトレーニングする方法、明確に説明されています(ビジュアル付き):
97.75K