Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Як LLM тренують LLM, наочно пояснено (з наочними матеріалами):

LLM вчаться не тільки на необробленому тексті, але і на інших моделях. Gemma 2 і 3 від Google, наприклад, були дистильовані з більшої моделі Gemini. Сьогодні ми розглянемо, три найпоширеніші методи дистиляції. Давайте зануримося! 🚀

1️⃣ Дистиляція з м'якою етикеткою Створюйте ймовірності софтмаксу на рівні токена по всьому корпусу за допомогою: - Заморожений, попередньо навчений Учитель ЛЛМ - Непідготовлений студент LLM Тренуйте LLM учня, щоб він відповідав ймовірностям вчителя. Перевірте👇 це

При м'якій дистиляції доступ до ймовірностей Вчителя забезпечує максимальну передачу знань. Однак, щоб отримати розподіл ймовірностей, ви повинні мати доступ до ваг Вчителя. Навіть з доступом виникає ще одна проблема...

Скажімо, у вашому словнику є 100 тисяч токенів, а в даних — 5 трильйонів токенів. Для зберігання ймовірностей softmax по всьому словнику для кожного вхідного токена потрібно 500 ГБ пам'яті з точністю fp8. Ось тут ми і переходимо до нашої другої техніки ... 👇

2️⃣ Дистиляція з твердою етикеткою - Використовуйте Teacher LLM, щоб отримати вихідний токен. - Отримайте зонди softmax від Student LLM. - Привчайте учня відповідати результатам вчителя. DeepSeek-R1 був дистильований у Qwen & Llama за допомогою цієї техніки. Погляньте на це зображення 👇

3️⃣ Спільна дистиляція - Почніть з непідготовленого вчителя та студента LLM. - Згенеруйте зонди softmax протягом поточної партії з обох моделей. - Тренуйте вчителя LLM на жорстких етикетках. - Тренуйте LLM учня відповідати softmax зондам Вчителя. Погляньте на це зображення 👇

Meta використовувала спільну дистиляцію для тренування Llama 4 Scout і Maverick від Llama 4 Behemoth. Звичайно, на початкових етапах м'які мітки Teacher LLM не будуть точними. Саме тому Student LLM тренується з використанням як soft labels, так і ground-truth hard labels.

Це були три техніки тренування одного ЛМ за допомогою іншої. Ми обговорили: - Дистиляція з м'якою етикеткою - Дистиляція з твердою етикеткою - Спільна дистиляція Ось знову візуальне зображення для довідки 👇

Ось і все! Якщо ви вважаєте її корисною, надішліть запит у свою мережу. Знайди мене → @akshay_pachaar ✔️ Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!

97,73K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги