Transformador vs. Mistura de Especialistas em LLMs, claramente explicado (com elementos visuais):
A Mistura de Especialistas (MoE) é uma arquitetura popular que utiliza diferentes "especialistas" para melhorar os modelos Transformer. A visualização abaixo explica como eles diferem dos Transformers. Vamos mergulhar para aprender mais sobre o MoE!
O Transformer e o MoE diferem no bloco do decodificador: - O Transformer utiliza uma rede neural de alimentação direta. - O MoE utiliza especialistas, que são redes neurais de alimentação direta, mas menores em comparação com as do Transformer. Durante a inferência, um subconjunto de especialistas é selecionado. Isso torna a inferência mais rápida no MoE.
Uma vez que a rede tem múltiplas camadas de decodificação: - o texto passa por diferentes especialistas em várias camadas. - os especialistas escolhidos também diferem entre os tokens. Mas como é que o modelo decide quais especialistas devem ser ideais? O roteador faz isso. Vamos discutir isso a seguir.
O router é como um classificador multi-classe que produz pontuações softmax sobre especialistas. Com base nas pontuações, selecionamos os melhores K especialistas. O router é treinado com a rede e aprende a selecionar os melhores especialistas. Mas não é simples. Vamos discutir os desafios!
Desafio 1) Note este padrão no início do treinamento: - O modelo seleciona "Especialista 2" - O especialista melhora um pouco - Pode ser selecionado novamente - O especialista aprende mais - É selecionado novamente - Aprende mais - E assim por diante! Muitos especialistas ficam sub-treinados!
Resolvemos isso em duas etapas: - Adicione ruído à saída feed-forward do roteador para que outros especialistas possam obter logits mais altos. - Defina todos os logits, exceto os K principais, como -infinito. Após a softmax, essas pontuações se tornam zero. Dessa forma, outros especialistas também têm a oportunidade de treinar.
Desafio 2) Alguns especialistas podem ser expostos a mais tokens do que outros—levando a especialistas sub-treinados. Prevenimos isso limitando o número de tokens que um especialista pode processar. Se um especialista atingir o limite, o token de entrada é passado para o próximo melhor especialista.
Os MoEs têm mais parâmetros a carregar. No entanto, uma fração deles é ativada, uma vez que apenas selecionamos alguns especialistas. Isto leva a uma inferência mais rápida. O Mixtral 8x7B da @MistralAI é um famoso LLM que é baseado em MoE. Aqui está a visualização novamente que compara Transformers e MoE!
Se você achou isso perspicaz, compartilhe novamente com sua rede. Encontre-me → @akshay_pachaar ✔️ Para mais informações e tutoriais sobre LLMs, AI Agents e Machine Learning!
Akshay 🚀
Akshay 🚀21/07, 20:30
Transformador vs. Mistura de Especialistas em LLMs, claramente explicado (com elementos visuais):
228,75K