Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wie LLMs LLMs trainieren, klar erklärt (mit visuellen Elementen):
LLMs lernen nicht nur aus rohem Text, sondern auch von anderen Modellen.
Die Gemma 2 und 3 von Google wurden beispielsweise aus dem größeren Gemini-Modell destilliert.
Heute behandeln wir die drei häufigsten Methoden der Wissensdestillation.
Lass uns eintauchen! 🚀
1️⃣ Soft-Label-Distillation
Generiere Token-Level-Softmax-Wahrscheinlichkeiten über das gesamte Korpus mit:
- Einem eingefrorenen, vortrainierten Lehrer-LLM
- Einem untrainierten Schüler-LLM
Trainiere das Schüler-LLM, um die Wahrscheinlichkeiten des Lehrers zu entsprechen.
Sieh dir das an👇
Bei der Soft-Label-Distillation gewährleistet der Zugriff auf die Wahrscheinlichkeiten des Lehrers einen maximalen Wissenstransfer.
Um jedoch die Wahrscheinlichkeitsverteilung zu erhalten, müssen Sie Zugriff auf die Gewichte des Lehrers haben.
Selbst mit Zugriff entsteht eine weitere Herausforderung...
Angenommen, dein Vokabular hat 100k Tokens und die Daten haben 5 Billionen Tokens.
Das Speichern von Softmax-Wahrscheinlichkeiten über das gesamte Vokabular für jedes Eingabetoken benötigt 500M GB Speicher unter fp8-Präzision.
Hier springen wir zu unserer zweiten Technik ...👇
2️⃣ Hard-Label-Distillation
- Verwenden Sie das Teacher LLM, um das Ausgabetoken zu erhalten.
- Holen Sie sich die Softmax-Wahrscheinlichkeiten vom Student LLM.
- Trainieren Sie den Student, um die Ausgabe des Teachers anzupassen.
DeepSeek-R1 wurde mit dieser Technik in Qwen & Llama destilliert.
Überprüfen Sie diese Visualisierung 👇
3️⃣ Co-Destillation
- Beginnen Sie mit einem untrainierten Lehrer- und Schüler-LLM.
- Generieren Sie Softmax-Wahrscheinlichkeiten über den aktuellen Batch von beiden Modellen.
- Trainieren Sie das Lehrer-LLM mit den harten Labels.
- Trainieren Sie das Schüler-LLM, um die Softmax-Wahrscheinlichkeiten des Lehrers zu entsprechen.
Überprüfen Sie diese Visualisierung 👇
Meta verwendete Co-Distillation, um Llama 4 Scout und Maverick aus Llama 4 Behemoth zu trainieren.
Natürlich werden in den Anfangsphasen die weichen Labels des Lehrer-LLM nicht genau sein.
Deshalb wird das Schüler-LLM sowohl mit weichen Labels als auch mit den harten Labels der Wahrheit trainiert.
Das waren die drei Techniken, um ein LLM mit einem anderen zu trainieren.
Wir haben besprochen:
- Soft-Label-Distillation
- Hard-Label-Distillation
- Co-Distillation
Hier ist die Visualisierung erneut zu Ihrer Referenz 👇
Das war's!
Wenn du es aufschlussreich fandest, teile es mit deinem Netzwerk.
Finde mich → @akshay_pachaar ✔️
Für weitere Einblicke und Tutorials zu LLMs, KI-Agenten und maschinellem Lernen!

25. Juli, 20:38
Wie LLMs LLMs trainieren, klar erklärt (mit visuellen Elementen):
97,73K
Top
Ranking
Favoriten