Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Como os LLMs treinam LLMs, claramente explicado (com elementos visuais):
Os LLMs aprendem não apenas a partir de texto bruto, mas também de outros modelos.
O Gemma 2 e 3 do Google, por exemplo, foram destilados do modelo Gemini maior.
Hoje abordamos os três métodos de destilação de conhecimento mais comuns.
Vamos mergulhar! 🚀
1️⃣ Destilação de Soft-label
Gere probabilidades softmax a nível de token sobre todo o corpus usando:
- Um Teacher LLM congelado e pré-treinado
- Um Student LLM não treinado
Treine o Student LLM para corresponder às probabilidades do Teacher.
Veja isto👇
Na destilação de rótulos suaves, ter acesso às probabilidades do Professor garante a máxima transferência de conhecimento.
No entanto, para obter a distribuição de probabilidade, você deve ter acesso aos pesos do Professor.
Mesmo com acesso, surge outro desafio...
Diga que o seu vocabulário tem 100k tokens e os dados têm 5 trilhões de tokens.
Armazenar as probabilidades softmax sobre todo o vocabulário para cada token de entrada precisa de 500M GBs de memória sob precisão fp8.
É aqui que passamos para a nossa segunda técnica ...👇
2️⃣ Destilação de rótulo duro
- Use o LLM Professor para obter o token de saída.
- Obtenha as probabilidades softmax do LLM Estudante.
- Treine o Estudante para igualar a saída do Professor.
O DeepSeek-R1 foi destilado em Qwen & Llama usando esta técnica.
Verifique este visual 👇
3️⃣ Co-destilação
- Comece com um LLM Professor e um LLM Estudante não treinados.
- Gere probabilidades softmax sobre o lote atual de ambos os modelos.
- Treine o LLM Professor com os rótulos difíceis.
- Treine o LLM Estudante para igualar as probabilidades softmax do Professor.
Verifique esta visualização 👇
A Meta usou co-destilação para treinar o Llama 4 Scout e o Maverick a partir do Llama 4 Behemoth.
Claro, durante as fases iniciais, os rótulos suaves do Teacher LLM não serão precisos.
É por isso que o Student LLM é treinado usando tanto rótulos suaves + rótulos duros de verdade.
Essas foram as três técnicas para treinar um LLM usando outro.
Discutimos:
- Destilação de rótulos suaves
- Destilação de rótulos duros
- Co-destilação
Aqui está a visualização novamente para sua referência 👇
É isso!
Se achou útil, compartilhe com a sua rede.
Encontre-me → @akshay_pachaar ✔️
Para mais insights e tutoriais sobre LLMs, Agentes de IA e Aprendizado de Máquina!

25/07, 20:38
Como os LLMs treinam LLMs, claramente explicado (com elementos visuais):
97,74K
Top
Classificação
Favoritos