Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Trasformatore vs. Miscela di esperti in LLM, spiegato chiaramente (con immagini):
Mixture of Experts (MoE) is a popular architecture that uses different "experts" to improve Transformer models.
The visual below explains how they differ from Transformers.
Let's dive in to learn more about MoE!
Transformer e MoE differiscono nel blocco decoder:
- Il Transformer utilizza una rete feed-forward.
- MoE utilizza esperti, che sono reti feed-forward ma più piccole rispetto a quelle del Transformer.
Durante l'inferenza, viene selezionato un sottoinsieme di esperti. Questo rende l'inferenza più veloce in MoE.
Poiché la rete ha più strati di decodifica:
- il testo passa attraverso diversi esperti nei vari strati.
- gli esperti scelti differiscono anche tra i token.
Ma come decide il modello quali esperti dovrebbero essere ideali?
Il router lo fa. Discutiamone nel prossimo.
Il router è come un classificatore multi-classe che produce punteggi softmax tra esperti. Sulla base dei punteggi, selezioniamo i migliori K esperti.
Il router viene addestrato con la rete e impara a selezionare i migliori esperti.
Ma non è semplice. Discutiamo delle sfide!
Sfida 1) Nota questo schema all'inizio dell'addestramento:
- Il modello seleziona "Esperto 2"
- L'esperto migliora un po'
- Potrebbe essere selezionato di nuovo
- L'esperto impara di più
- Viene selezionato di nuovo
- Impara di più
- E così via!
Molti esperti sono poco addestrati!
Risolvendo questo in due fasi:
- Aggiungere rumore all'output feed-forward del router in modo che altri esperti possano ottenere logit più alti.
- Impostare tutti i logit tranne i primi K a -infinito. Dopo softmax, questi punteggi diventano zero.
In questo modo, anche altri esperti hanno l'opportunità di allenarsi.
Sfida 2) Alcuni esperti potrebbero essere esposti a più token di altri, portando a esperti poco formati.
Preveniamo questo limitando il numero di token che un esperto può elaborare.
Se un esperto raggiunge il limite, il token di input viene passato al prossimo esperto migliore.
I MoE hanno più parametri da caricare. Tuttavia, solo una frazione di essi è attivata poiché selezioniamo solo alcuni esperti.
Questo porta a un'inferenza più veloce. Mixtral 8x7B di @MistralAI è un famoso LLM basato su MoE.
Ecco di nuovo il grafico che confronta i Transformers e i MoE!
Se l'hai trovato interessante, condividilo nuovamente con la tua rete.
Trovami → @akshay_pachaar ✔️
Per ulteriori approfondimenti e tutorial su LLM, agenti di intelligenza artificiale e apprendimento automatico!

21 lug, 20:30
Trasformatore vs. Miscela di esperti in LLM, spiegato chiaramente (con immagini):
228,76K
Principali
Ranking
Preferiti