Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Como os LLMs treinam LLMs, claramente explicados (com recursos visuais):
Os LLMs aprendem não apenas com texto bruto, mas também com outros modelos.
O Gemma 2 e 3 do Google, por exemplo, foram destilados do modelo Gemini maior.
Hoje cobrimos os três métodos de destilação de conhecimento mais comuns.
Vamos mergulhar! 🚀
1️⃣ Destilação de rótulo macio
Gere probabilidades softmax em nível de token em todo o corpus usando:
- Um professor LLM congelado e pré-treinado
- Um LLM de estudante não treinado
Treine o LLM do aluno para corresponder às probabilidades do professor.
Confira isso👇
Na destilação soft-label, ter acesso às probabilidades do professor garante a máxima transferência de conhecimento.
No entanto, para obter a distribuição de probabilidade, você deve ter acesso aos pesos do professor.
Mesmo com o acesso, surge outro desafio...
Digamos que seu vocabulário tenha 100 mil tokens e os dados tenham 5 trilhões de tokens.
O armazenamento de probabilidades softmax em todo o vocabulário para cada token de entrada precisa de 500 milhões de GBs de memória com precisão fp8.
É aqui que saltamos para nossa segunda técnica ... 👇
2️⃣ Destilação de rótulo duro
- Use o LLM do professor para obter o token de saída.
- Obtenha os problemas softmax do Student LLM.
- Treine o aluno para corresponder à produção do professor.
O DeepSeek-R1 foi destilado em Qwen & Llama usando esta técnica.
Verifique este visual 👇
3️⃣ Co-destilação
- Comece com um LLM de professor e aluno não treinado.
- Gere testes softmax sobre o lote atual de ambos os modelos.
- Treine o professor LLM nos rótulos rígidos.
- Treine o LLM do aluno para corresponder aos problemas softmax do professor.
Verifique este visual 👇
Meta usou co-destilação para treinar Llama 4 Scout e Maverick de Llama 4 Behemoth.
É claro que, durante os estágios iniciais, os rótulos suaves do LLM do professor não serão precisos.
É por isso que o Student LLM é treinado usando rótulos suaves + rótulos rígidos de verdade.
Essas foram as três técnicas para treinar um LLM usando outro.
Discutimos:
- Destilação de rótulo macio
- Destilação de rótulo duro
- Co-destilação
Aqui está o visual novamente para sua referência 👇
Isso é tudo!
Se você achou perspicaz, compartilhe novamente com sua rede.
Encontre-me → @akshay_pachaar ✔️
Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!

25 de jul., 20:38
Como os LLMs treinam LLMs, claramente explicados (com recursos visuais):
97,75K
Melhores
Classificação
Favoritos