Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jak LLM trénují LLM, jasně vysvětleno (s vizuálními prvky):
LLM se učí nejen z nezpracovaného textu, ale také z jiných modelů.
Například Gemma 2 a 3 od Googlu byly převzaty z většího modelu Gemini.
Dnes se budeme zabývat třemi nejběžnějšími metodami destilace znalostí.
Pojďme se ponořit! 🚀
1️⃣ Destilace s měkkou etiketou
Vygenerujte softmaxové pravděpodobnosti na úrovni tokenu v celém korpusu pomocí:
- Zmrazený, předem vyškolený učitel LLM
- Nevyškolený student LLM
Trénujte studentské LLM tak, aby odpovídalo pravděpodobnostem učitele.
Podívejte se na👇 to
Při destilaci s měkkou etiketou zajišťuje přístup k pravděpodobnostem učitele maximální přenos znalostí.
Chcete-li však získat rozdělení pravděpodobnosti, musíte mít přístup k vahám učitele.
I s přístupem vyvstává další výzva...
Řekněme, že vaše slovní zásoba má 100 tisíc tokenů a data mají 5 bilionů tokenů.
Ukládání softmax pravděpodobností v celé slovní zásobě pro každý vstupní token vyžaduje 500 Mb paměti s přesností fp8.
Zde přeskočíme k naší druhé technice ... 👇
2️⃣ Destilace s tvrdou etiketou
- K získání výstupního tokenu použijte Teacher LLM.
- Získejte softmax probs. od studenta LLM.
- Vyškolte studenta tak, aby odpovídal výstupu učitele.
DeepSeek-R1 byl pomocí této techniky destilován na Qwen & Llama
Podívejte se na tento vizuál 👇
3️⃣ Společná destilace
- Začněte s nevyškoleným učitelem a studentem LLM.
- Generování softmax probs pro aktuální dávku z obou modelů.
- Vyškolte učitele LLM na tvrdé štítky.
- Trénujte studenta LLM tak, aby odpovídal softmax probs učitele.
Podívejte se na tento vizuál 👇
Společnost Meta využila společnou destilaci k výcviku Llama 4 Scout a Maverick z Llama 4 Behemoth.
Samozřejmě, že během počátečních fází nebudou měkké štítky učitelského LLM přesné.
To je důvod, proč je Student LLM školen pomocí jak měkkých štítků, tak tvrdých štítků ground-truth.
To byly tři techniky pro trénink jednoho LLM pomocí druhého.
Diskutovali jsme:
- Destilace s měkkou etiketou
- Destilace s tvrdou etiketou
- Společná destilace
Zde je opět vizuál pro vaši referenci 👇
To je konec!
Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí.
Najdi mě → @akshay_pachaar ✔️
Další poznatky a návody na LLM, AI agenty a strojové učení!

25. 7. 20:38
Jak LLM trénují LLM, jasně vysvětleno (s vizuálními prvky):
97,16K
Top
Hodnocení
Oblíbené