Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformator vs. Mix van experts in LLM's, duidelijk uitgelegd (met visuals):
Mixture of Experts (MoE) is een populaire architectuur die verschillende "experts" gebruikt om Transformer-modellen te verbeteren.
De onderstaande visual legt uit hoe ze verschillen van Transformers.
Laten we dieper ingaan op MoE om er meer over te leren!
Transformer en MoE verschillen in de decoderblok:
- Transformer gebruikt een feedforward-netwerk.
- MoE gebruikt experts, wat feedforward-netwerken zijn maar kleiner in vergelijking met die in Transformer.
Tijdens inferentie wordt een subset van experts geselecteerd. Dit maakt inferentie sneller in MoE.
Aangezien het netwerk meerdere decoderlagen heeft:
- de tekst gaat door verschillende experts in de lagen.
- de gekozen experts verschillen ook tussen tokens.
Maar hoe beslist het model welke experts ideaal zouden moeten zijn?
Dat doet de router. Laten we het daar volgende keer over hebben.
De router is als een multi-class classifier die softmax-scores produceert over experts. Op basis van de scores selecteren we de top K experts.
De router wordt getraind met het netwerk en leert de beste experts te selecteren.
Maar het is niet eenvoudig. Laten we de uitdagingen bespreken!
Uitdaging 1) Let op dit patroon aan het begin van de training:
- Het model selecteert "Expert 2"
- De expert wordt een beetje beter
- Het kan opnieuw geselecteerd worden
- De expert leert meer
- Het wordt opnieuw geselecteerd
- Het leert meer
- Enzovoort!
Veel experts worden onvoldoende getraind!
We lossen dit in twee stappen op:
- Voeg ruis toe aan de feed-forward output van de router, zodat andere experts hogere logits kunnen krijgen.
- Zet alle logits behalve de top K op -oneindig. Na softmax worden deze scores nul.
Op deze manier krijgen andere experts ook de kans om te trainen.
Uitdaging 2) Sommige experts kunnen aan meer tokens worden blootgesteld dan anderen, wat leidt tot ondergetrainde experts.
We voorkomen dit door het aantal tokens dat een expert kan verwerken te beperken.
Als een expert de limiet bereikt, wordt het invoertoken doorgegeven aan de volgende beste expert.
MoEs hebben meer parameters om te laden. Een fractie daarvan wordt echter geactiveerd, aangezien we slechts enkele experts selecteren.
Dit leidt tot snellere inferentie. Mixtral 8x7B van @MistralAI is een beroemde LLM die gebaseerd is op MoE.
Hier is de visual opnieuw die Transformers en MoE vergelijkt!
Als je het inzichtelijk vond, deel het dan opnieuw met je netwerk.
Vind me → @akshay_pachaar ✔️
Voor meer inzichten en tutorials over LLM's, AI Agents en Machine Learning!

21 jul, 20:30
Transformator vs. Mix van experts in LLM's, duidelijk uitgelegd (met visuals):
228,75K
Boven
Positie
Favorieten