Transformator vs. blandning av experter på LLM, tydligt förklarat (med bilder):
Mixture of Experts (MoE) är en populär arkitektur som använder olika "experter" för att förbättra transformatormodeller. Det visuella objektet nedan förklarar hur de skiljer sig från Transformers. Låt oss dyka in för att lära oss mer om MoE!
Transformator och MoE skiljer sig åt i avkodningsblocket: - Transformatorn använder ett feed-forward-nätverk. - MoE använder sig av experter, som är feed-forward-nätverk men mindre jämfört med det i Transformer. Under slutsatsdragningen väljs en delmängd av experterna. Detta gör slutsatsdragningen snabbare i MoE.
Eftersom nätverket har flera avkodningslager: - Texten passerar genom olika experter i olika lager. - De valda experterna skiljer sig också åt mellan tokens. Men hur avgör modellen vilka experter som ska vara idealiska? Routern gör det. Låt oss diskutera det härnäst.
Routern är som en klassificerare med flera klasser som ger softmax-poäng över experter. Baserat på poängen väljer vi ut de bästa K-experterna. Routern är tränad med nätverket och den lär sig att välja de bästa experterna. Men det är inte okomplicerat. Låt oss diskutera utmaningarna!
Utmaning 1) Lägg märke till det här mönstret i början av träningen: - Modellen väljer "Expert 2" - Experten blir lite bättre - Den kan bli vald igen - Experten lär sig mer - Den väljs igen - Den lär sig mer - Och så vidare! Många experter är underutbildade!
Vi löser detta i två steg: - Lägg till brus i routerns feed-forward-utgång så att andra experter kan få högre inloggningar. - Ställ in alla utom de översta K-inloggningarna på -infinity. Efter softmax blir dessa poäng noll. På så sätt får även andra experter möjlighet att träna.
Utmaning 2) Vissa experter kan utsättas för fler tokens än andra, vilket leder till underutbildade experter. Vi förhindrar detta genom att begränsa antalet tokens som en expert kan behandla. Om en expert når gränsen skickas inmatningstoken till nästa bästa expert i stället.
MoE har fler parametrar att läsa in. En bråkdel av dem är dock aktiverade eftersom vi bara väljer ut några experter. Detta leder till snabbare slutsatsdragning. Mixtral 8x7B av @MistralAI är en berömd LLM som är baserad på MoE. Här är det visuella igen som jämför Transformers och MoE!
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @akshay_pachaar ✔️ För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!
Akshay 🚀
Akshay 🚀21 juli 20:30
Transformator vs. blandning av experter på LLM, tydligt förklarat (med bilder):
228,75K