Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformator kontra mieszanka ekspertów w LLM, jasno wyjaśnione (z wizualizacjami):
Mieszanka Ekspertów (MoE) to popularna architektura, która wykorzystuje różnych "ekspertów" do poprawy modeli Transformera.
Poniższa wizualizacja wyjaśnia, jak różnią się od Transformerów.
Zanurzmy się, aby dowiedzieć się więcej o MoE!
Transformer i MoE różnią się w bloku dekodera:
- Transformer używa sieci feed-forward.
- MoE używa ekspertów, którzy są sieciami feed-forward, ale mniejszymi w porównaniu do tych w Transformerze.
Podczas wnioskowania wybierany jest podzbiór ekspertów. To sprawia, że wnioskowanie w MoE jest szybsze.
Ponieważ sieć ma wiele warstw dekodera:
- tekst przechodzi przez różnych ekspertów w różnych warstwach.
- wybrani eksperci różnią się również między tokenami.
Ale jak model decyduje, którzy eksperci powinni być idealni?
To robi router. Omówmy to następnie.
Router jest jak klasyfikator wieloklasowy, który generuje wyniki softmax dla ekspertów. Na podstawie wyników wybieramy najlepszych K ekspertów.
Router jest trenowany razem z siecią i uczy się wybierać najlepszych ekspertów.
Ale to nie jest proste. Porozmawiajmy o wyzwaniach!
Wyzwanie 1) Zauważ ten wzór na początku szkolenia:
- Model wybiera "Ekspert 2"
- Ekspert staje się trochę lepszy
- Może zostać wybrany ponownie
- Ekspert uczy się więcej
- Zostaje wybrany ponownie
- Uczy się więcej
- I tak dalej!
Wielu ekspertów jest niedostatecznie szkolonych!
Rozwiązujemy to w dwóch krokach:
- Dodajemy szum do wyjścia feed-forward routera, aby inni eksperci mogli uzyskać wyższe logity.
- Ustawiamy wszystkie logity poza najlepszymi K na -nieskończoność. Po zastosowaniu softmax te wyniki stają się zerowe.
W ten sposób inni eksperci również mają możliwość trenowania.
Wyzwanie 2) Niektórzy eksperci mogą mieć dostęp do większej liczby tokenów niż inni — co prowadzi do niedostatecznie przeszkolonych ekspertów.
Zapobiegamy temu, ograniczając liczbę tokenów, które ekspert może przetworzyć.
Jeśli ekspert osiągnie limit, token wejściowy jest przekazywany do następnego najlepszego eksperta.
MoE mają więcej parametrów do załadowania. Jednak tylko część z nich jest aktywowana, ponieważ wybieramy tylko niektórych ekspertów.
Prowadzi to do szybszego wnioskowania. Mixtral 8x7B od @MistralAI to jeden z popularnych LLM opartych na MoE.
Oto ponownie wizualizacja, która porównuje Transformery i MoE!
Jeśli uważasz go za wnikliwy, udostępnij go ponownie w swojej sieci.
Znajdź mnie → @akshay_pachaar ✔️
Aby uzyskać więcej szczegółowych informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!

21 lip, 20:30
Transformator kontra mieszanka ekspertów w LLM, jasno wyjaśnione (z wizualizacjami):
228,74K
Najlepsze
Ranking
Ulubione