Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformador vs. Mistura de Especialistas em LLMs, claramente explicado (com elementos visuais):
A Mistura de Especialistas (MoE) é uma arquitetura popular que utiliza diferentes "especialistas" para melhorar os modelos Transformer.
A visualização abaixo explica como eles diferem dos Transformers.
Vamos mergulhar para aprender mais sobre o MoE!
O Transformer e o MoE diferem no bloco do decodificador:
- O Transformer utiliza uma rede neural de alimentação direta.
- O MoE utiliza especialistas, que são redes neurais de alimentação direta, mas menores em comparação com as do Transformer.
Durante a inferência, um subconjunto de especialistas é selecionado. Isso torna a inferência mais rápida no MoE.
Uma vez que a rede tem múltiplas camadas de decodificação:
- o texto passa por diferentes especialistas em várias camadas.
- os especialistas escolhidos também diferem entre os tokens.
Mas como é que o modelo decide quais especialistas devem ser ideais?
O roteador faz isso. Vamos discutir isso a seguir.
O router é como um classificador multi-classe que produz pontuações softmax sobre especialistas. Com base nas pontuações, selecionamos os melhores K especialistas.
O router é treinado com a rede e aprende a selecionar os melhores especialistas.
Mas não é simples. Vamos discutir os desafios!
Desafio 1) Note este padrão no início do treinamento:
- O modelo seleciona "Especialista 2"
- O especialista melhora um pouco
- Pode ser selecionado novamente
- O especialista aprende mais
- É selecionado novamente
- Aprende mais
- E assim por diante!
Muitos especialistas ficam sub-treinados!
Resolvemos isso em duas etapas:
- Adicione ruído à saída feed-forward do roteador para que outros especialistas possam obter logits mais altos.
- Defina todos os logits, exceto os K principais, como -infinito. Após a softmax, essas pontuações se tornam zero.
Dessa forma, outros especialistas também têm a oportunidade de treinar.
Desafio 2) Alguns especialistas podem ser expostos a mais tokens do que outros—levando a especialistas sub-treinados.
Prevenimos isso limitando o número de tokens que um especialista pode processar.
Se um especialista atingir o limite, o token de entrada é passado para o próximo melhor especialista.
Os MoEs têm mais parâmetros a carregar. No entanto, uma fração deles é ativada, uma vez que apenas selecionamos alguns especialistas.
Isto leva a uma inferência mais rápida. O Mixtral 8x7B da @MistralAI é um famoso LLM que é baseado em MoE.
Aqui está a visualização novamente que compara Transformers e MoE!
Se você achou isso perspicaz, compartilhe novamente com sua rede.
Encontre-me → @akshay_pachaar ✔️
Para mais informações e tutoriais sobre LLMs, AI Agents e Machine Learning!

21/07, 20:30
Transformador vs. Mistura de Especialistas em LLMs, claramente explicado (com elementos visuais):
228,75K
Top
Classificação
Favoritos