Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hur LLM:er tränar LLM:er, tydligt förklarat (med bilder):
LLM:er lär sig inte bara av rå text utan också av andra modeller.
Googles Gemma 2 och 3, till exempel, destillerades från den större Gemini-modellen.
Idag går vi igenom de tre vanligaste kunskapsdestillationsmetoderna.
Låt oss dyka in! 🚀
1️⃣ Destillation med mjuk etikett
Generera softmax-sannolikheter på tokennivå över hela korpusen med hjälp av:
- En fryst, förutbildad lärare LLM
- En outbildad student LLM
Träna studenten LLM för att matcha lärarens sannolikheter.
Kolla in det här👇
I soft-label-destillation säkerställer tillgång till Lärarens sannolikheter maximal kunskapsöverföring.
För att få fram sannolikhetsfördelningen måste du dock ha tillgång till lärarens vikter.
Även med tillgång uppstår en annan utmaning...
Säg att ditt vokabulär har 100 000 tokens och data har 5 biljoner tokens.
Att lagra softmax-sannolikheter över hela vokabulären för varje indatatoken kräver 500 miljoner GB minne under fp8-precision.
Det är här vi hoppar till vår andra teknik ... 👇
2️⃣ Destillation med hård etikett
- Använd Teacher LLM för att få utdatatoken.
- Hämta softmax-probs. från Student LLM.
- Träna eleven att matcha lärarens resultat.
DeepSeek-R1 destillerades till Qwen & Llama med hjälp av denna teknik.
Kontrollera det här visuella objektet 👇
3️⃣ Samdestillation
- Börja med en outbildad lärare och elev LLM.
- Generera softmax-prober över den aktuella batchen från båda modellerna.
- Utbilda läraren LLM på de hårda etiketterna.
- Träna Student LLM för att matcha softmax-probs för läraren.
Kontrollera det här visuella objektet 👇
Meta använde co-destillation för att träna Llama 4 Scout och Maverick från Llama 4 Behemoth.
Naturligtvis, under de inledande stadierna, kommer mjuka etiketter av Teacher LLM inte att vara korrekta.
Det är därför Student LLM är utbildad med både mjuka etiketter + hårda etiketter med grundsanning.
Det var de tre teknikerna för att träna en LLM med en annan.
Vi diskuterade:
- Destillation med mjuk etikett
- Destillation med hård etikett
- Samdestillation
Här är det visuella objektet igen för din referens 👇
Det är en wrap!
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk.
Hitta mig → @akshay_pachaar ✔️
För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!

25 juli 20:38
Hur LLM:er tränar LLM:er, tydligt förklarat (med bilder):
97,75K
Topp
Rankning
Favoriter