Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformador vs. Mezcla de Expertos en LLMs, explicado claramente (con imágenes):
La Mezcla de Expertos (MoE) es una arquitectura popular que utiliza diferentes "expertos" para mejorar los modelos de Transformer.
La visualización a continuación explica cómo se diferencian de los Transformers.
¡Profundicemos para aprender más sobre MoE!
Transformer y MoE difieren en el bloque del decodificador:
- Transformer utiliza una red de alimentación hacia adelante.
- MoE utiliza expertos, que son redes de alimentación hacia adelante pero más pequeñas en comparación con las de Transformer.
Durante la inferencia, se selecciona un subconjunto de expertos. Esto hace que la inferencia sea más rápida en MoE.
Dado que la red tiene múltiples capas de decodificación:
- el texto pasa a través de diferentes expertos en las capas.
- los expertos elegidos también difieren entre los tokens.
Pero, ¿cómo decide el modelo qué expertos deberían ser ideales?
El enrutador hace eso. Hablemos de ello a continuación.
El enrutador es como un clasificador de múltiples clases que produce puntuaciones softmax sobre expertos. Basado en las puntuaciones, seleccionamos los mejores K expertos.
El enrutador se entrena con la red y aprende a seleccionar a los mejores expertos.
Pero no es sencillo. ¡Discutamos los desafíos!
Desafío 1) Observa este patrón al inicio del entrenamiento:
- El modelo selecciona "Experto 2"
- El experto mejora un poco
- Puede ser seleccionado de nuevo
- El experto aprende más
- Se selecciona de nuevo
- Aprende más
- ¡Y así sucesivamente!
¡Muchos expertos quedan poco entrenados!
Resolvemos esto en dos pasos:
- Agregar ruido a la salida de avance del enrutador para que otros expertos puedan obtener logits más altos.
- Establecer todos los logits excepto los K superiores en -infinito. Después de softmax, estas puntuaciones se convierten en cero.
De esta manera, otros expertos también tienen la oportunidad de entrenar.
Desafío 2) Algunos expertos pueden estar expuestos a más tokens que otros, lo que lleva a expertos poco entrenados.
Evitamos esto limitando el número de tokens que un experto puede procesar.
Si un experto alcanza el límite, el token de entrada se pasa al siguiente mejor experto.
Los MoEs tienen más parámetros que cargar. Sin embargo, solo se activa una fracción de ellos ya que solo seleccionamos algunos expertos.
Esto conduce a una inferencia más rápida. Mixtral 8x7B de @MistralAI es un famoso LLM que se basa en MoE.
¡Aquí está la visualización nuevamente que compara Transformers y MoE!
Si te ha resultado interesante, vuelve a compartirlo con tu red.
Encuéntrame → @akshay_pachaar ✔️
Para obtener más información y tutoriales sobre LLM, agentes de IA y aprendizaje automático.

21 jul, 20:30
Transformador vs. Mezcla de Expertos en LLMs, explicado claramente (con imágenes):
228,75K
Parte superior
Clasificación
Favoritos