Transformer vs. Mixture of Experts in LLMs, klar erklärt (mit Bildern):
Mixture of Experts (MoE) ist eine beliebte Architektur, die verschiedene "Experten" nutzt, um Transformer-Modelle zu verbessern. Die folgende Visualisierung erklärt, wie sie sich von Transformern unterscheiden. Lass uns eintauchen, um mehr über MoE zu erfahren!
Transformer und MoE unterscheiden sich im Decoder-Block: - Transformer verwendet ein Feedforward-Netzwerk. - MoE verwendet Experten, die Feedforward-Netzwerke sind, aber kleiner im Vergleich zu dem im Transformer. Während der Inferenz wird eine Teilmenge von Experten ausgewählt. Dies macht die Inferenz in MoE schneller.
Da das Netzwerk mehrere Dekodierschichten hat: - der Text durchläuft verschiedene Experten in den Schichten. - die gewählten Experten unterscheiden sich auch zwischen den Tokens. Aber wie entscheidet das Modell, welche Experten ideal sein sollten? Das macht der Router. Lass uns das als Nächstes besprechen.
Der Router ist wie ein Multi-Class-Klassifikator, der Softmax-Werte über Experten erzeugt. Basierend auf den Werten wählen wir die besten K Experten aus. Der Router wird mit dem Netzwerk trainiert und lernt, die besten Experten auszuwählen. Aber es ist nicht einfach. Lass uns über die Herausforderungen sprechen!
Herausforderung 1) Beachten Sie dieses Muster zu Beginn des Trainings: - Das Modell wählt "Experte 2" aus - Der Experte wird ein wenig besser - Er könnte erneut ausgewählt werden - Der Experte lernt mehr - Er wird erneut ausgewählt - Er lernt mehr - Und so weiter! Viele Experten werden unzureichend trainiert!
Wir lösen dies in zwei Schritten: - Fügen Sie Rauschen zum Feed-Forward-Ausgang des Routers hinzu, damit andere Experten höhere Logits erhalten können. - Setzen Sie alle Logits außer den besten K auf -Unendlichkeit. Nach Softmax werden diese Werte null. Auf diese Weise haben auch andere Experten die Möglichkeit zu trainieren.
Herausforderung 2) Einige Experten könnten mehr Token ausgesetzt sein als andere – was zu untertrainierten Experten führt. Wir verhindern dies, indem wir die Anzahl der Token begrenzen, die ein Experte verarbeiten kann. Wenn ein Experte das Limit erreicht, wird das Eingabetoken an den nächstbesten Experten weitergegeben.
MoEs haben mehr Parameter zu laden. Allerdings wird nur ein Bruchteil davon aktiviert, da wir nur einige Experten auswählen. Das führt zu schnelleren Inferenzzeiten. Mixtral 8x7B von @MistralAI ist ein bekanntes LLM, das auf MoE basiert. Hier ist die Visualisierung erneut, die Transformer und MoE vergleicht!
Wenn Sie es aufschlussreich fanden, teilen Sie es erneut mit Ihrem Netzwerk. Finde mich → @akshay_pachaar ✔️ Für weitere Einblicke und Tutorials zu LLMs, KI-Agenten und maschinellem Lernen!
Akshay 🚀
Akshay 🚀21. Juli, 20:30
Transformer vs. Mixture of Experts in LLMs, klar erklärt (mit Bildern):
228,76K