Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Come gli LLM addestrano gli LLM, spiegato chiaramente (con immagini):
I LLM apprendono non solo da testi grezzi, ma anche da altri modelli.
Gemma 2 e 3 di Google, ad esempio, sono stati distillati dal modello Gemini più grande.
Oggi trattiamo i tre metodi di distillazione della conoscenza più comuni.
Immergiamoci! 🚀
1️⃣ Distillazione con Soft-label
Genera probabilità softmax a livello di token su tutto il corpus utilizzando:
- Un Teacher LLM pre-addestrato e congelato
- Uno Student LLM non addestrato
Addestra lo Student LLM per eguagliare le probabilità del Teacher.
Dai un'occhiata a questo👇
Nella distillazione a soft-label, avere accesso alle probabilità del Teacher garantisce il massimo trasferimento di conoscenza.
Tuttavia, per ottenere la distribuzione delle probabilità, è necessario avere accesso ai pesi del Teacher.
Anche con accesso, sorge un'altra sfida...
Diciamo che il tuo vocabolario ha 100k token e i dati hanno 5 trilioni di token.
Memorizzare le probabilità softmax su tutto il vocabolario per ogni token di input richiede 500M GB di memoria con precisione fp8.
È qui che passiamo alla nostra seconda tecnica ...👇
2️⃣ Distillazione a etichetta dura
- Usa il Teacher LLM per ottenere il token di output.
- Ottieni le probabilità softmax dal Student LLM.
- Allena lo Student per abbinare l'output del Teacher.
DeepSeek-R1 è stato distillato in Qwen & Llama utilizzando questa tecnica.
Controlla questo visivo 👇
3️⃣ Co-distillazione
- Inizia con un Teacher e uno Student LLM non addestrati.
- Genera probabilità softmax sul batch attuale da entrambi i modelli.
- Addestra il Teacher LLM sui hard labels.
- Addestra lo Student LLM per eguagliare le probabilità softmax del Teacher.
Controlla questa visuale 👇
Meta ha utilizzato la co-distillazione per addestrare Llama 4 Scout e Maverick a partire da Llama 4 Behemoth.
Naturalmente, durante le fasi iniziali, le etichette morbide del Teacher LLM non saranno accurate.
Ecco perché lo Student LLM viene addestrato utilizzando sia etichette morbide che etichette dure di verità fondamentale.
Queste erano le tre tecniche per addestrare un LLM utilizzando un altro.
Abbiamo discusso:
- Distillazione con etichette morbide
- Distillazione con etichette rigide
- Co-distillazione
Ecco di nuovo il visual per il tuo riferimento 👇
È tutto!
Se lo hai trovato interessante, condividilo con la tua rete.
Trova me → @akshay_pachaar ✔️
Per ulteriori approfondimenti e tutorial su LLM, agenti AI e machine learning!

25 lug, 20:38
Come gli LLM addestrano gli LLM, spiegato chiaramente (con immagini):
97,76K
Principali
Ranking
Preferiti