Transformer vs. blanding av eksperter i LLM-er, tydelig forklart (med bilder):
Mixture of Experts (MoE) er en populær arkitektur som bruker forskjellige "eksperter" for å forbedre Transformer-modeller. Visualobjektet nedenfor forklarer hvordan de skiller seg fra Transformers. La oss dykke inn for å lære mer om MoE!
Transformator og MoE er forskjellige i dekoderblokken: - Transformator bruker et feed-forward-nettverk. - MoE bruker eksperter, som er feed-forward-nettverk, men mindre sammenlignet med det i Transformer. Under inferens velges et undersett av eksperter. Dette gjør slutning raskere i MoE.
Siden nettverket har flere dekoderlag: - Teksten går gjennom ulike eksperter på tvers av lag. - De valgte ekspertene er også forskjellige mellom tokens. Men hvordan bestemmer modellen hvilke eksperter som skal være ideelle? Ruteren gjør det. La oss diskutere det neste.
Ruteren er som en klassifiserer i flere klasser som produserer softmax-poeng over eksperter. Basert på poengsummene velger vi de beste K-ekspertene. Ruteren er opplært med nettverket og den lærer å velge de beste ekspertene. Men det er ikke enkelt. La oss diskutere utfordringene!
Utfordring 1) Legg merke til dette mønsteret i starten av treningen: - Modellen velger "Expert 2" - Eksperten blir litt bedre - Det kan bli valgt på nytt - Eksperten lærer mer - Den blir valgt på nytt - Den lærer mer - Og så videre! Mange eksperter blir undertrent!
Vi løser dette i to trinn: - Legg til støy til feed-forward-utgangen til ruteren slik at andre eksperter kan få høyere logits. - Sett alle unntatt topp K-logits til -uendelig. Etter softmax blir disse poengsummene null. På denne måten får også andre eksperter muligheten til å trene.
Utfordring 2) Noen eksperter kan bli utsatt for flere tokens enn andre – noe som fører til undertrente eksperter. Vi forhindrer dette ved å begrense antall tokens en ekspert kan behandle. Hvis en ekspert når grensen, sendes inndatatokenet til den nest beste eksperten i stedet.
MoEs har flere parametere å laste. Imidlertid er en brøkdel av dem aktivert siden vi bare velger noen eksperter. Dette fører til raskere slutning. Mixtral 8x7B av @MistralAI er en kjent LLM som er basert på MoE. Her er det visuelle igjen som sammenligner Transformers og MoE!
Hvis du syntes det var innsiktsfullt, kan du dele det med nettverket ditt. Finn meg → @akshay_pachaar ✔️ For mer innsikt og opplæringer om LLM-er, AI-agenter og maskinlæring!
Akshay 🚀
Akshay 🚀21. juli, 20:30
Transformer vs. blanding av eksperter i LLM-er, tydelig forklart (med bilder):
228,74K