Transformátor vs. směs odborníků na LLM, jasně vysvětleno (s vizuálními prvky):
Směs odborníků (MoE) je populární architektura, která používá různé "odborníky" k vylepšování modelů Transformerů. Níže uvedený vizuál vysvětluje, jak se liší od Transformers. Pojďme se ponořit a dozvědět se více o MoE!
Transformátor a MoE se liší v bloku dekodéru: - Transformátor používá dopřednou síť. - MoE využívá experty, což jsou dopředné sítě, ale menší ve srovnání s Transformerem. Během odvozování je vybrána podmnožina odborníků. Díky tomu je inference v MoE rychlejší.
Protože síť má více vrstev dekodéru: - Text prochází přes různé odborníky napříč vrstvami. - Vybraní experti se liší i mezi tokeny. Jak ale model rozhoduje, kteří odborníci by měli být ideální? Router to dělá. Pojďme si o tom probrat příště.
Router je jako vícetřídní klasifikátor, který vytváří softmax skóre nad odborníky. Na základě skóre vybíráme nejlepší odborníky K. Router je vyškolen se sítí a učí se vybírat ty nejlepší odborníky. Ale není to jednoduché. Pojďme diskutovat o výzvách!
Výzva 1) Všimněte si tohoto vzorce na začátku tréninku: - Model vybere "Expert 2" - Odborník se trochu zlepší - Může být znovu vybrán - Odborník se naučí více - Znovu se vybere - Naučí se více - A tak dále! Mnoho odborníků je nedostatečně vyškoleno!
To řešíme ve dvou krocích: - Přidejte šum do dopředného výstupu routeru, aby ostatní odborníci mohli získat vyšší logity. - Nastavte všechny logity kromě horních K na -nekonečno. Po softmaxu se toto skóre změní na nulové. Tímto způsobem dostanou příležitost ke školení i další odborníci.
Výzva 2: Někteří odborníci mohou být vystaveni více tokenům než jiní – což vede k nedostatečně vyškoleným odborníkům. Tomu předcházíme tím, že omezujeme počet žetonů, které může odborník zpracovat. Pokud expert dosáhne limitu, vstupní token se místo toho předá dalšímu nejlepšímu expertovi.
MoE mají více parametrů k načtení. Zlomek z nich je však aktivován, protože vybíráme pouze některé odborníky. To vede k rychlejšímu odvozování. Mixtral 8x7B od @MistralAI je jeden slavný LLM, který je založen na MoE. Zde je opět vizuál, který porovnává Transformers a MoE!
Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí. Najdi mě → @akshay_pachaar ✔️ Další poznatky a návody na LLM, AI agenty a strojové učení!
Akshay 🚀
Akshay 🚀21. 7. 20:30
Transformátor vs. směs odborníků na LLM, jasně vysvětleno (s vizuálními prvky):
228,74K