Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cómo entrenan los LLM Los LLM, explicado claramente (con imágenes):
Los LLMs aprenden no solo de texto en bruto, sino también de otros modelos.
Gemma 2 y 3 de Google, por ejemplo, fueron destilados del modelo más grande Gemini.
Hoy cubrimos los tres métodos de destilación de conocimiento más comunes.
¡Vamos a sumergirnos! 🚀
1️⃣ Destilación de etiquetas suaves
Genera probabilidades softmax a nivel de token sobre todo el corpus utilizando:
- Un Teacher LLM congelado y preentrenado
- Un Student LLM no entrenado
Entrena el Student LLM para que coincida con las probabilidades del Teacher.
Mira esto👇
En la destilación de etiquetas suaves, tener acceso a las probabilidades del Maestro asegura la máxima transferencia de conocimiento.
Sin embargo, para obtener la distribución de probabilidad, debes tener acceso a los pesos del Maestro.
Incluso con acceso, surge otro desafío...
Supongamos que tu vocabulario tiene 100k tokens y los datos tienen 5 billones de tokens.
Almacenar las probabilidades softmax sobre todo el vocabulario para cada token de entrada necesita 500M GB de memoria bajo precisión fp8.
Aquí es donde pasamos a nuestra segunda técnica ...👇
2️⃣ Destilación de etiquetas duras
- Usa el LLM del Maestro para obtener el token de salida.
- Obtén las probabilidades softmax del LLM del Estudiante.
- Entrena al Estudiante para que coincida con la salida del Maestro.
DeepSeek-R1 fue destilado en Qwen & Llama utilizando esta técnica.
Mira esta visualización 👇
3️⃣ Co-destilación
- Comienza con un modelo LLM Teacher y Student no entrenado.
- Genera probabilidades softmax sobre el lote actual de ambos modelos.
- Entrena el modelo LLM Teacher con las etiquetas duras.
- Entrena el modelo LLM Student para que coincida con las probabilidades softmax del Teacher.
Mira esta visualización 👇
Meta utilizó co-destilación para entrenar a Llama 4 Scout y Maverick a partir de Llama 4 Behemoth.
Por supuesto, durante las etapas iniciales, las etiquetas suaves del LLM Maestro no serán precisas.
Por eso, el LLM Estudiante se entrena utilizando tanto etiquetas suaves como etiquetas duras de verdad.
Esas fueron las tres técnicas para entrenar un LLM utilizando otro.
Discutimos:
- Destilación de etiquetas suaves
- Destilación de etiquetas duras
- Co-destilación
Aquí está el visual nuevamente para tu referencia 👇
¡Eso es todo!
Si te pareció interesante, compártelo con tu red.
Encuéntrame → @akshay_pachaar ✔️
¡Para más ideas y tutoriales sobre LLMs, Agentes de IA y Aprendizaje Automático!

25 jul, 20:38
Cómo entrenan los LLM Los LLM, explicado claramente (con imágenes):
97,74K
Parte superior
Clasificación
Favoritos