Transformator vs. Amestec de experți în LLM-uri, explicat clar (cu imagini):
Amestecul de experți (MoE) este o arhitectură populară care folosește diferiți "experți" pentru a îmbunătăți modelele de transformator. Imaginea de mai jos explică cum diferă de Transformers. Să ne scufundăm pentru a afla mai multe despre MoE!
Transformatorul și MoE diferă în blocul de decodor: - Transformatorul folosește o rețea feed-forward. - MoE folosește experți, care sunt rețele feed-forward, dar mai mici în comparație cu cele din Transformer. În timpul inferenței, sunt selectați un subset de experți. Acest lucru face ca inferența să fie mai rapidă în MoE.
Deoarece rețeaua are mai multe straturi de decodoare: - Textul trece prin diferiți experți peste straturi. - Experții aleși diferă, de asemenea, între jetoane. Dar cum decide modelul care experți ar trebui să fie ideali? Routerul face asta. Să discutăm în continuare.
Routerul este ca un clasificator multi-clasă care produce scoruri softmax față de experți. Pe baza scorurilor, selectăm cei mai buni experți K. Routerul este antrenat cu rețeaua și învață să selecteze cei mai buni experți. Dar nu este simplu. Să discutăm despre provocări!
Provocarea 1) Observați acest model la începutul antrenamentului: - Modelul selectează "Expert 2" - Expertul devine puțin mai bun - Poate fi selectat din nou - Expertul învață mai multe - Se selectează din nou - Învață mai multe - Și așa mai departe! Mulți experți sunt subinstruiți!
Rezolvăm acest lucru în doi pași: - Adăugați zgomot la ieșirea feed-forward a routerului, astfel încât alți experți să poată obține logit-uri mai mari. - Setați toți logiturile, cu excepția primului K, la -infinit. După softmax, aceste scoruri devin zero. În acest fel, și alți experți au ocazia să se antreneze.
Provocarea 2) Unii experți pot fi expuși la mai multe token-uri decât alții, ceea ce duce la experți slab pregătiți. Prevenim acest lucru prin limitarea numărului de token-uri pe care un expert le poate procesa. Dacă un expert atinge limita, tokenul de intrare este transmis următorului cel mai bun expert.
MoE au mai mulți parametri de încărcat. Cu toate acestea, o fracțiune dintre ele sunt activate, deoarece selectăm doar câțiva experți. Acest lucru duce la o inferență mai rapidă. Mixtral 8x7B de @MistralAI este un LLM celebru care se bazează pe MoE. Iată din nou imaginea care compară Transformers și MoE!
Dacă ți s-a părut util, redistribui cu rețeaua ta. Găsește-mă → @akshay_pachaar ✔️ Pentru mai multe informații și tutoriale despre LLM-uri, agenți AI și învățare automată!
Akshay 🚀
Akshay 🚀21 iul., 20:30
Transformator vs. Amestec de experți în LLM-uri, explicat clar (cu imagini):
228,76K