Як LLM тренують LLM, наочно пояснено (з наочними матеріалами):
LLM вчаться не тільки на необробленому тексті, але і на інших моделях. Gemma 2 і 3 від Google, наприклад, були дистильовані з більшої моделі Gemini. Сьогодні ми розглянемо, три найпоширеніші методи дистиляції. Давайте зануримося! 🚀
1️⃣ Дистиляція з м'якою етикеткою Створюйте ймовірності софтмаксу на рівні токена по всьому корпусу за допомогою: - Заморожений, попередньо навчений Учитель ЛЛМ - Непідготовлений студент LLM Тренуйте LLM учня, щоб він відповідав ймовірностям вчителя. Перевірте👇 це
При м'якій дистиляції доступ до ймовірностей Вчителя забезпечує максимальну передачу знань. Однак, щоб отримати розподіл ймовірностей, ви повинні мати доступ до ваг Вчителя. Навіть з доступом виникає ще одна проблема...
Скажімо, у вашому словнику є 100 тисяч токенів, а в даних — 5 трильйонів токенів. Для зберігання ймовірностей softmax по всьому словнику для кожного вхідного токена потрібно 500 ГБ пам'яті з точністю fp8. Ось тут ми і переходимо до нашої другої техніки ... 👇
2️⃣ Дистиляція з твердою етикеткою - Використовуйте Teacher LLM, щоб отримати вихідний токен. - Отримайте зонди softmax від Student LLM. - Привчайте учня відповідати результатам вчителя. DeepSeek-R1 був дистильований у Qwen & Llama за допомогою цієї техніки. Погляньте на це зображення 👇
3️⃣ Спільна дистиляція - Почніть з непідготовленого вчителя та студента LLM. - Згенеруйте зонди softmax протягом поточної партії з обох моделей. - Тренуйте вчителя LLM на жорстких етикетках. - Тренуйте LLM учня відповідати softmax зондам Вчителя. Погляньте на це зображення 👇
Meta використовувала спільну дистиляцію для тренування Llama 4 Scout і Maverick від Llama 4 Behemoth. Звичайно, на початкових етапах м'які мітки Teacher LLM не будуть точними. Саме тому Student LLM тренується з використанням як soft labels, так і ground-truth hard labels.
Це були три техніки тренування одного ЛМ за допомогою іншої. Ми обговорили: - Дистиляція з м'якою етикеткою - Дистиляція з твердою етикеткою - Спільна дистиляція Ось знову візуальне зображення для довідки 👇
Ось і все! Якщо ви вважаєте її корисною, надішліть запит у свою мережу. Знайди мене → @akshay_pachaar ✔️ Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!
Akshay 🚀
Akshay 🚀25 лип., 20:38
Як LLM тренують LLM, наочно пояснено (з наочними матеріалами):
97,73K