Transformer vs. Mélange d’experts en LLM, clairement expliqué (avec des visuels) :
Le Mixture of Experts (MoE) est une architecture populaire qui utilise différents "experts" pour améliorer les modèles Transformer. Le visuel ci-dessous explique comment ils diffèrent des Transformers. Plongeons pour en apprendre davantage sur le MoE !
Le Transformer et le MoE diffèrent dans le bloc décodeur : - Le Transformer utilise un réseau de neurones à propagation avant. - Le MoE utilise des experts, qui sont des réseaux de neurones à propagation avant mais plus petits par rapport à ceux du Transformer. Lors de l'inférence, un sous-ensemble d'experts est sélectionné. Cela rend l'inférence plus rapide dans le MoE.
Puisque le réseau a plusieurs couches de décodeurs : - le texte passe par différents experts à travers les couches. - les experts choisis diffèrent également entre les tokens. Mais comment le modèle décide-t-il quels experts devraient être idéaux ? Le routeur s'en charge. Discutons-en ensuite.
Le routeur est comme un classificateur multi-classe qui produit des scores softmax sur des experts. En fonction des scores, nous sélectionnons les meilleurs K experts. Le routeur est entraîné avec le réseau et il apprend à sélectionner les meilleurs experts. Mais ce n'est pas simple. Discutons des défis !
Défi 1) Remarquez ce schéma au début de l'entraînement : - Le modèle sélectionne "Expert 2" - L'expert s'améliore un peu - Il peut être sélectionné à nouveau - L'expert apprend davantage - Il est sélectionné à nouveau - Il apprend encore plus - Et ainsi de suite ! De nombreux experts sont sous-entrainés !
Nous résolvons cela en deux étapes : - Ajouter du bruit à la sortie feed-forward du routeur afin que d'autres experts puissent obtenir des logits plus élevés. - Mettre tous les logits sauf les K meilleurs à -infinity. Après softmax, ces scores deviennent zéro. De cette façon, d'autres experts ont également l'opportunité de s'entraîner.
Défi 2) Certains experts peuvent être exposés à plus de tokens que d'autres, ce qui peut entraîner des experts sous-formés. Nous prévenons cela en limitant le nombre de tokens qu'un expert peut traiter. Si un expert atteint la limite, le token d'entrée est transmis au meilleur expert suivant.
Les MoEs ont plus de paramètres à charger. Cependant, une fraction d'entre eux est activée puisque nous ne sélectionnons que certains experts. Cela conduit à une inférence plus rapide. Mixtral 8x7B de @MistralAI est un LLM célèbre basé sur MoE. Voici à nouveau le visuel qui compare les Transformers et MoE !
Si vous l’avez trouvé perspicace, partagez-le à nouveau avec votre réseau. Trouvez-moi → @akshay_pachaar ✔️ Pour plus d’informations et de tutoriels sur les LLM, les agents d’IA et l’apprentissage automatique !
Akshay 🚀
Akshay 🚀21 juil., 20:30
Transformer vs. Mélange d’experts en LLM, clairement expliqué (avec des visuels) :
228,74K