Трансформер против Смеси Экспертов в больших языковых моделях, объяснено понятно (с иллюстрациями):
Смешанная архитектура экспертов (MoE) — это популярная архитектура, которая использует различных "экспертов" для улучшения моделей Transformer. На визуализации ниже объясняется, как они отличаются от Transformers. Давайте углубимся, чтобы узнать больше о MoE!
Трансформер и MoE различаются в блоке декодера: - Трансформер использует сеть прямого распространения. - MoE использует экспертов, которые являются сетями прямого распространения, но меньше по сравнению с теми, что в Трансформере. Во время вывода выбирается подмножество экспертов. Это делает вывод быстрее в MoE.
Поскольку сеть имеет несколько слоев декодеров: - текст проходит через различных экспертов на разных слоях. - выбранные эксперты также различаются между токенами. Но как модель решает, какие эксперты должны быть идеальными? Это делает маршрутизатор. Давайте обсудим это дальше.
Маршрутизатор похож на многоклассовый классификатор, который выдает softmax-оценки для экспертов. На основе оценок мы выбираем лучших K экспертов. Маршрутизатор обучается вместе с сетью и учится выбирать лучших экспертов. Но это не просто. Давайте обсудим трудности!
Задача 1) Обратите внимание на эту схему в начале обучения: - Модель выбирает "Эксперт 2" - Эксперт немного улучшается - Его могут выбрать снова - Эксперт учится больше - Его выбирают снова - Он учится больше - И так далее! Многие эксперты недостаточно обучены!
Мы решаем это в два этапа: - Добавляем шум к выходным данным маршрутизатора, чтобы другие эксперты могли получить более высокие логиты. - Устанавливаем все логиты, кроме топ K, в -бесконечность. После softmax эти оценки становятся нулевыми. Таким образом, у других экспертов также появляется возможность для обучения.
Задача 2) Некоторые эксперты могут получить доступ к большему количеству токенов, чем другие, что приводит к недостаточной подготовке экспертов. Мы предотвращаем это, ограничивая количество токенов, которые эксперт может обработать. Если эксперт достигает предела, входной токен передается следующему лучшему эксперту.
MoE имеют больше параметров для загрузки. Однако лишь часть из них активируется, так как мы выбираем только некоторых экспертов. Это приводит к более быстрой инференции. Mixtral 8x7B от @MistralAI — это один из известных LLM, основанный на MoE. Вот снова визуализация, которая сравнивает Transformers и MoE!
Если вы нашли это полезным, поделитесь с вашей сетью. Найдите меня → @akshay_pachaar ✔️ Для получения дополнительных сведений и учебных материалов по LLM, AI-агентам и машинному обучению!
Akshay 🚀
Akshay 🚀21 июл., 20:30
Трансформер против Смеси Экспертов в больших языковых моделях, объяснено понятно (с иллюстрациями):
228,75K