トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLMがLLMをトレーニングする方法、明確に説明されています(ビジュアル付き):
LLM は生のテキストだけでなく、他のモデルからも学習します。
たとえば、Google の Gemma 2 と 3 は、より大きな Gemini モデルから抽出されました。
今日は、最も一般的な3つの蒸留方法について説明します。
飛び込んでみましょう!🚀
1️⃣ ソフトラベル蒸留
以下を使用して、コーパス全体にわたってトークンレベルのソフトマックス確率を生成します。
- 凍結された事前トレーニング済み教師 LLM
- トレーニングを受けていない学生 LLM
教師の確率に一致するように学生のLLMをトレーニングします。
これがいいと思います👇
ソフトラベル蒸留では、教師の確率にアクセスできることで、知識の伝達が最大限に保証されます。
ただし、確率分布を取得するには、教師の重みにアクセスできる必要があります。
アクセスがあっても、別の課題が生じます...
語彙に 100 個のトークンがあり、データに 5 兆個のトークンがあるとします。
各入力トークンの語彙全体にわたってソフトマックス確率を格納するには、fp8精度で500M GBのメモリが必要です。
ここで、2番目のテクニックにジャンプします...👇
2️⃣ハードラベル蒸留
- 教師用LLMを使用して出力トークンを取得します。
- 学生LLMからソフトマックス確率を取得します。
- 教師の出力に一致するように生徒をトレーニングします。
DeepSeek-R1 は、この手法を使用して Qwen & Llama に蒸留されました。
このビジュアル👇を確認する
3️⃣ 共蒸留
- トレーニングを受けていない教師と学生の LLM から始めます。
- 両方のモデルから現在のバッチに対してソフトマックス プローブを生成します。
- ハードラベルで教師LLMをトレーニングします。
- 教師のソフトマックス確率に一致するように学生のLLMをトレーニングします。
このビジュアル👇を確認する
メタは共蒸留を使用して、ラマ 4 スカウトとラマ 4 ベヒモスのマーベリックをトレーニングしました。
もちろん、初期段階では、教師 LLM のソフト ラベルは正確ではありません。
そのため、Student LLM はソフト ラベル + グラウンド トゥルース ハード ラベルの両方を使用してトレーニングされます。
これらは、ある LLM を別の LLM を使用してトレーニングするための 3 つの手法でした。
私たちは話し合いました:
- ソフトラベル蒸留
- ハードラベル蒸留
- 共蒸留
参考までに👇再びビジュアルを紹介します
これで終わりです!
洞察力に富んだと思われた場合は、ネットワークと再共有してください。
→ @akshay_pachaar ✔️
LLM、AI エージェント、機械学習に関するその他の洞察とチュートリアルについては、こちらをご覧ください。

7月25日 20:38
LLMがLLMをトレーニングする方法、明確に説明されています(ビジュアル付き):
97.75K
トップ
ランキング
お気に入り