Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Як LLM тренують LLM, наочно пояснено (з наочними матеріалами):
LLM вчаться не тільки на необробленому тексті, але і на інших моделях.
Gemma 2 і 3 від Google, наприклад, були дистильовані з більшої моделі Gemini.
Сьогодні ми розглянемо, три найпоширеніші методи дистиляції.
Давайте зануримося! 🚀
1️⃣ Дистиляція з м'якою етикеткою
Створюйте ймовірності софтмаксу на рівні токена по всьому корпусу за допомогою:
- Заморожений, попередньо навчений Учитель ЛЛМ
- Непідготовлений студент LLM
Тренуйте LLM учня, щоб він відповідав ймовірностям вчителя.
Перевірте👇 це
При м'якій дистиляції доступ до ймовірностей Вчителя забезпечує максимальну передачу знань.
Однак, щоб отримати розподіл ймовірностей, ви повинні мати доступ до ваг Вчителя.
Навіть з доступом виникає ще одна проблема...
Скажімо, у вашому словнику є 100 тисяч токенів, а в даних — 5 трильйонів токенів.
Для зберігання ймовірностей softmax по всьому словнику для кожного вхідного токена потрібно 500 ГБ пам'яті з точністю fp8.
Ось тут ми і переходимо до нашої другої техніки ... 👇
2️⃣ Дистиляція з твердою етикеткою
- Використовуйте Teacher LLM, щоб отримати вихідний токен.
- Отримайте зонди softmax від Student LLM.
- Привчайте учня відповідати результатам вчителя.
DeepSeek-R1 був дистильований у Qwen & Llama за допомогою цієї техніки.
Погляньте на це зображення 👇
3️⃣ Спільна дистиляція
- Почніть з непідготовленого вчителя та студента LLM.
- Згенеруйте зонди softmax протягом поточної партії з обох моделей.
- Тренуйте вчителя LLM на жорстких етикетках.
- Тренуйте LLM учня відповідати softmax зондам Вчителя.
Погляньте на це зображення 👇
Meta використовувала спільну дистиляцію для тренування Llama 4 Scout і Maverick від Llama 4 Behemoth.
Звичайно, на початкових етапах м'які мітки Teacher LLM не будуть точними.
Саме тому Student LLM тренується з використанням як soft labels, так і ground-truth hard labels.
Це були три техніки тренування одного ЛМ за допомогою іншої.
Ми обговорили:
- Дистиляція з м'якою етикеткою
- Дистиляція з твердою етикеткою
- Спільна дистиляція
Ось знову візуальне зображення для довідки 👇
Ось і все!
Якщо ви вважаєте її корисною, надішліть запит у свою мережу.
Знайди мене → @akshay_pachaar ✔️
Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!

25 лип., 20:38
Як LLM тренують LLM, наочно пояснено (з наочними матеріалами):
97,73K
Найкращі
Рейтинг
Вибране