Jak LLM trénují LLM, jasně vysvětleno (s vizuálními prvky):
LLM se učí nejen z nezpracovaného textu, ale také z jiných modelů. Například Gemma 2 a 3 od Googlu byly převzaty z většího modelu Gemini. Dnes se budeme zabývat třemi nejběžnějšími metodami destilace znalostí. Pojďme se ponořit! 🚀
1️⃣ Destilace s měkkou etiketou Vygenerujte softmaxové pravděpodobnosti na úrovni tokenu v celém korpusu pomocí: - Zmrazený, předem vyškolený učitel LLM - Nevyškolený student LLM Trénujte studentské LLM tak, aby odpovídalo pravděpodobnostem učitele. Podívejte se na👇 to
Při destilaci s měkkou etiketou zajišťuje přístup k pravděpodobnostem učitele maximální přenos znalostí. Chcete-li však získat rozdělení pravděpodobnosti, musíte mít přístup k vahám učitele. I s přístupem vyvstává další výzva...
Řekněme, že vaše slovní zásoba má 100 tisíc tokenů a data mají 5 bilionů tokenů. Ukládání softmax pravděpodobností v celé slovní zásobě pro každý vstupní token vyžaduje 500 Mb paměti s přesností fp8. Zde přeskočíme k naší druhé technice ... 👇
2️⃣ Destilace s tvrdou etiketou - K získání výstupního tokenu použijte Teacher LLM. - Získejte softmax probs. od studenta LLM. - Vyškolte studenta tak, aby odpovídal výstupu učitele. DeepSeek-R1 byl pomocí této techniky destilován na Qwen & Llama Podívejte se na tento vizuál 👇
3️⃣ Společná destilace - Začněte s nevyškoleným učitelem a studentem LLM. - Generování softmax probs pro aktuální dávku z obou modelů. - Vyškolte učitele LLM na tvrdé štítky. - Trénujte studenta LLM tak, aby odpovídal softmax probs učitele. Podívejte se na tento vizuál 👇
Společnost Meta využila společnou destilaci k výcviku Llama 4 Scout a Maverick z Llama 4 Behemoth. Samozřejmě, že během počátečních fází nebudou měkké štítky učitelského LLM přesné. To je důvod, proč je Student LLM školen pomocí jak měkkých štítků, tak tvrdých štítků ground-truth.
To byly tři techniky pro trénink jednoho LLM pomocí druhého. Diskutovali jsme: - Destilace s měkkou etiketou - Destilace s tvrdou etiketou - Společná destilace Zde je opět vizuál pro vaši referenci 👇
To je konec! Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí. Najdi mě → @akshay_pachaar ✔️ Další poznatky a návody na LLM, AI agenty a strojové učení!
Akshay 🚀
Akshay 🚀25. 7. 20:38
Jak LLM trénují LLM, jasně vysvětleno (s vizuálními prvky):
97,16K