Como os LLMs treinam LLMs, claramente explicados (com recursos visuais):
Os LLMs aprendem não apenas com texto bruto, mas também com outros modelos. O Gemma 2 e 3 do Google, por exemplo, foram destilados do modelo Gemini maior. Hoje cobrimos os três métodos de destilação de conhecimento mais comuns. Vamos mergulhar! 🚀
1️⃣ Destilação de rótulo macio Gere probabilidades softmax em nível de token em todo o corpus usando: - Um professor LLM congelado e pré-treinado - Um LLM de estudante não treinado Treine o LLM do aluno para corresponder às probabilidades do professor. Confira isso👇
Na destilação soft-label, ter acesso às probabilidades do professor garante a máxima transferência de conhecimento. No entanto, para obter a distribuição de probabilidade, você deve ter acesso aos pesos do professor. Mesmo com o acesso, surge outro desafio...
Digamos que seu vocabulário tenha 100 mil tokens e os dados tenham 5 trilhões de tokens. O armazenamento de probabilidades softmax em todo o vocabulário para cada token de entrada precisa de 500 milhões de GBs de memória com precisão fp8. É aqui que saltamos para nossa segunda técnica ... 👇
2️⃣ Destilação de rótulo duro - Use o LLM do professor para obter o token de saída. - Obtenha os problemas softmax do Student LLM. - Treine o aluno para corresponder à produção do professor. O DeepSeek-R1 foi destilado em Qwen & Llama usando esta técnica. Verifique este visual 👇
3️⃣ Co-destilação - Comece com um LLM de professor e aluno não treinado. - Gere testes softmax sobre o lote atual de ambos os modelos. - Treine o professor LLM nos rótulos rígidos. - Treine o LLM do aluno para corresponder aos problemas softmax do professor. Verifique este visual 👇
Meta usou co-destilação para treinar Llama 4 Scout e Maverick de Llama 4 Behemoth. É claro que, durante os estágios iniciais, os rótulos suaves do LLM do professor não serão precisos. É por isso que o Student LLM é treinado usando rótulos suaves + rótulos rígidos de verdade.
Essas foram as três técnicas para treinar um LLM usando outro. Discutimos: - Destilação de rótulo macio - Destilação de rótulo duro - Co-destilação Aqui está o visual novamente para sua referência 👇
Isso é tudo! Se você achou perspicaz, compartilhe novamente com sua rede. Encontre-me → @akshay_pachaar ✔️ Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!
Akshay 🚀
Akshay 🚀25 de jul., 20:38
Como os LLMs treinam LLMs, claramente explicados (com recursos visuais):
97,75K