Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jak LLM szkolą LLM, jasno wyjaśnione (z wizualizacjami):
LLM-y uczą się nie tylko z surowego tekstu, ale także z innych modeli.
Gemma 2 i 3 od Google, na przykład, zostały wyodrębnione z większego modelu Gemini.
Dziś omówimy trzy najczęściej stosowane metody destylacji wiedzy.
Zanurzmy się! 🚀
1️⃣ Destylacja z miękkimi etykietami
Generuj prawdopodobieństwa softmax na poziomie tokenów dla całego korpusu przy użyciu:
- Zamrożonego, wstępnie wytrenowanego modelu nauczyciela LLM
- Nieprzeszkolonego modelu ucznia LLM
Wytrenuj model ucznia LLM, aby dopasować się do prawdopodobieństw modelu nauczyciela.
Sprawdź to👇
W destylacji z miękkimi etykietami, dostęp do prawdopodobieństw Nauczyciela zapewnia maksymalny transfer wiedzy.
Jednak aby uzyskać rozkład prawdopodobieństwa, musisz mieć dostęp do wag Nauczyciela.
Nawet przy dostępie pojawia się kolejny problem...
Powiedz, że twój słownik ma 100 tys. tokenów, a dane mają 5 bilionów tokenów.
Przechowywanie prawdopodobieństw softmax dla całego słownika dla każdego tokena wejściowego wymaga 500M GB pamięci przy precyzji fp8.
To tutaj przechodzimy do naszej drugiej techniki ...👇
2️⃣ Destylacja twardych etykiet
- Użyj modelu nauczyciela LLM, aby uzyskać token wyjściowy.
- Uzyskaj prawdopodobieństwa softmax z modelu ucznia LLM.
- Wytrenuj ucznia, aby dopasować się do wyjścia nauczyciela.
DeepSeek-R1 został zdestylowany do Qwen i Llama przy użyciu tej techniki.
Sprawdź ten wizual 👇
3️⃣ Współdestylacja
- Rozpocznij od nieprzeszkolonego modelu nauczyciela i ucznia LLM.
- Generuj prawdopodobieństwa softmax dla bieżącej partii z obu modeli.
- Szkol model nauczyciela LLM na twardych etykietach.
- Szkol model ucznia LLM, aby dopasować prawdopodobieństwa softmax modelu nauczyciela.
Sprawdź tę wizualizację 👇
Meta użyło współdestylacji do wytrenowania Llama 4 Scout i Maverick z Llama 4 Behemoth.
Oczywiście, w początkowych etapach, miękkie etykiety LLM nauczyciela nie będą dokładne.
Dlatego LLM ucznia jest trenowane przy użyciu zarówno miękkich etykiet, jak i twardych etykiet rzeczywistych.
To były trzy techniki do trenowania jednego LLM przy użyciu innego.
Omówiliśmy:
- Destylacja z miękkimi etykietami
- Destylacja z twardymi etykietami
- Ko-destylacja
Oto wizualizacja ponownie dla Twojej referencji 👇
To koniec!
Jeśli uznałeś to za interesujące, podziel się z siecią.
Znajdź mnie → @akshay_pachaar ✔️
Po więcej informacji i tutoriali na temat LLM, agentów AI i uczenia maszynowego!

25 lip, 20:38
Jak LLM szkolą LLM, jasno wyjaśnione (z wizualizacjami):
97,74K
Najlepsze
Ranking
Ulubione