Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cum antrenează LLM-urile, explicat clar (cu imagini):
LLM-urile învață nu numai din text brut, ci și din alte modele.
Gemma 2 și 3 de la Google, de exemplu, au fost distilate din modelul mai mare Gemini.
Astăzi acoperim cele mai comune trei metode de distilare a cunoștințelor.
Să ne scufundăm! 🚀
1️⃣ Distilare cu etichetă moale
Generați probabilități softmax la nivel de token pe întregul corpus utilizând:
- Un profesor înghețat, pre-pregătit LLM
- Un student LLM neinstruit
Antrenați LLM-ul elevului pentru a se potrivi cu probabilitățile profesorului.
Verifică👇 asta
În distilarea cu etichetă moale, accesul la probabilitățile profesorului asigură un transfer maxim de cunoștințe.
Cu toate acestea, pentru a obține distribuția de probabilitate, trebuie să aveți acces la greutățile profesorului.
Chiar și cu acces, apare o altă provocare...
Să presupunem că vocabularul tău are 100k jetoane și datele au 5 trilioane de jetoane.
Stocarea probabilităților softmax pe întregul vocabular pentru fiecare token de intrare necesită 500 de milioane de GB de memorie cu precizie fp8.
Aici trecem la a doua noastră tehnică ... 👇
2️⃣ Distilare cu etichetă dură
- Utilizați LLM profesor pentru a obține tokenul de ieșire.
- Obțineți probele softmax de la Student LLM.
- Instruiți elevul să se potrivească cu rezultatul profesorului.
DeepSeek-R1 a fost distilat în Qwen & Llama folosind această tehnică.
Verificați acest vizual 👇
3️⃣ Co-distilare
- Începeți cu un LLM neinstruit pentru profesor și elev.
- Generați sonde softmax peste lotul curent de la ambele modele.
- Instruiți profesorul LLM pe etichetele dure.
- Antrenați LLM-ul elevului pentru a se potrivi cu probele softmax ale profesorului.
Verificați acest vizual 👇
Meta a folosit co-distilarea pentru a-i antrena pe Llama 4 Scout și Maverick din Llama 4 Behemoth.
Desigur, în etapele inițiale, etichetele soft ale Teacher LLM nu vor fi corecte.
De aceea, Student LLM este instruit folosind atât etichete soft, cât și etichete hard truth.
Acestea au fost cele trei tehnici de a antrena un LLM folosind altul.
Am discutat:
- Distilare cu etichetă moale
- Distilare cu etichetă
- Co-distilare
Iată din nou vizualul pentru referință 👇
Asta e o încheiere!
Dacă ți s-a părut util, redistribui cu rețeaua ta.
Găsește-mă → @akshay_pachaar ✔️
Pentru mai multe informații și tutoriale despre LLM-uri, agenți AI și învățare automată!

25 iul., 20:38
Cum antrenează LLM-urile, explicat clar (cu imagini):
97,75K
Limită superioară
Clasament
Favorite