Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformador vs. Mezcla de Expertos en LLMs, explicado claramente (con imágenes):
Mezcla de expertos (MoE) es una arquitectura popular que utiliza diferentes "expertos" para mejorar los modelos de transformadores.
La siguiente imagen explica en qué se diferencian de los Transformers.
¡Profundicemos para aprender más sobre MoE!
El transformador y el MoE difieren en el bloque decodificador:
- El transformador utiliza una red de alimentación.
- El MoE utiliza expertos, que son redes de retroalimentación pero más pequeñas en comparación con las de Transformer.
Durante la inferencia, se selecciona un subconjunto de expertos. Esto hace que la inferencia sea más rápida en el MoE.
Dado que la red tiene múltiples capas decodificadoras:
- El texto pasa a través de diferentes expertos a través de capas.
- Los expertos elegidos también difieren entre los tokens.
Pero, ¿cómo decide el modelo qué expertos deberían ser ideales?
El enrutador hace eso. Discutámoslo a continuación.
El enrutador es como un clasificador de varias clases que produce puntajes de softmax sobre los expertos. En función de las puntuaciones, seleccionamos a los mejores expertos en K.
El router está entrenado con la red y aprende a seleccionar a los mejores expertos.
Pero no es sencillo. ¡Hablemos de los desafíos!
Desafío 1) Observe este patrón al comienzo del entrenamiento:
- El modelo selecciona "Experto 2"
- El experto mejora un poco
- Puede ser seleccionado nuevamente
- El experto aprende más
- Se vuelve a seleccionar
- Aprende más
- ¡Y así sucesivamente!
¡Muchos expertos no están bien capacitados!
Esto lo resolvemos en dos pasos:
- Agregue ruido a la salida de avance del enrutador para que otros expertos puedan obtener registros más altos.
- Establezca todos los logits excepto los K superiores en -infinity. Después de softmax, estas puntuaciones se convierten en cero.
De esta manera, otros expertos también tienen la oportunidad de formarse.
Desafío 2) Algunos expertos pueden estar expuestos a más tokens que otros, lo que lleva a expertos poco capacitados.
Evitamos esto limitando la cantidad de tokens que un experto puede procesar.
Si un experto alcanza el límite, el token de entrada se pasa al siguiente mejor experto.
Los MoE tienen más parámetros para cargar. Sin embargo, una fracción de ellos se activan ya que solo seleccionamos algunos expertos.
Esto conduce a una inferencia más rápida. Mixtral 8x7B de @MistralAI es un famoso LLM que se basa en MoE.
¡Aquí está la imagen nuevamente que compara a Transformers y MoE!
Si te ha resultado interesante, vuelve a compartirlo con tu red.
Encuéntrame → @akshay_pachaar ✔️
Para obtener más información y tutoriales sobre LLM, agentes de IA y aprendizaje automático.

21 jul, 20:30
Transformador vs. Mezcla de Expertos en LLMs, explicado claramente (con imágenes):
228.74K
Populares
Ranking
Favoritas