Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Трансформер проти суміші експертів з LLM, чітко пояснено (з візуальними зображеннями):
Mix of Experts (MoE) — популярна архітектура, яка використовує різних «експертів» для покращення моделей трансформерів.
На малюнку нижче пояснюється, чим вони відрізняються від трансформерів.
Давайте зануримося, щоб дізнатися більше про МОН!
Трансформатор і МОЕ розрізняються в блоці декодера:
- У трансформаторі використовується мережа прямого зв'язку.
- МОН використовує експерти, які є мережами прямого зв'язку, але меншими порівняно з тими, що в «Трансформаторі».
Під час висновування вибирається підмножина експертів. Це робить висновок швидшим у МОН.
Оскільки мережа має кілька рівнів декодера:
- текст проходить через різних експертів по різних шарах.
- Обрані експерти також різняться між токенами.
Але як модель вирішує, які експерти повинні бути ідеальними?
Маршрутизатор це робить. Про це і поговоримо далі.
Роутер схожий на мультикласовий класифікатор, який видає бали softmax вище за експертів. За оцінками ми вибираємо найкращих експертів К.
Роутер навчається роботі з мережею і вчиться вибирати кращих фахівців.
Але не все так просто. Давайте обговоримо виклики!
Завдання 1) Зверніть увагу на цю закономірність на початку навчання:
- Модель вибирає «Експерт 2»
- Експерт стає трохи кращим
- Він може бути вибраний знову
- Експерт дізнається більше
- Він знову вибирається
- Він дізнається більше
- І так далі!
Багато експертів залишаються недостатньо підготовленими!
Ми вирішуємо цю проблему в два кроки:
- Додайте шум до виходу прямого живлення маршрутизатора, щоб інші експерти могли отримати вищі логіти.
- Встановіть для всіх входив, крім верхньої частини K, значення -infinity. Після софтмаксу ці показники дорівнюють нулю.
Таким чином інші експерти також отримують можливість тренуватися.
Виклик 2) Деякі експерти можуть отримати доступ до більшої кількості токенів, ніж інші, що призведе до недостатньо підготовлених експертів.
Ми запобігаємо цьому, обмежуючи кількість токенів, які може обробляти експерт.
Якщо експерт досягає ліміту, вхідний токен передається наступному найкращому експерту.
МОН має більше параметрів для навантаження. Однак частина з них активована, оскільки ми вибираємо лише деяких експертів.
Це призводить до швидшого висновку. Mixtral 8x7B від @MistralAI - це одна з відомих LLM, яка базується на MoE.
Ось знову візуальне зображення, яке порівнює Трансформери та MoE!
Якщо ви вважаєте її корисною, надішліть запит у свою мережу.
Знайди мене → @akshay_pachaar ✔️
Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!

21 лип., 20:30
Трансформер проти суміші експертів з LLM, чітко пояснено (з візуальними зображеннями):
228,74K
Найкращі
Рейтинг
Вибране