Como os LLMs treinam LLMs, claramente explicado (com elementos visuais):
Os LLMs aprendem não apenas a partir de texto bruto, mas também de outros modelos. O Gemma 2 e 3 do Google, por exemplo, foram destilados do modelo Gemini maior. Hoje abordamos os três métodos de destilação de conhecimento mais comuns. Vamos mergulhar! 🚀
1️⃣ Destilação de Soft-label Gere probabilidades softmax a nível de token sobre todo o corpus usando: - Um Teacher LLM congelado e pré-treinado - Um Student LLM não treinado Treine o Student LLM para corresponder às probabilidades do Teacher. Veja isto👇
Na destilação de rótulos suaves, ter acesso às probabilidades do Professor garante a máxima transferência de conhecimento. No entanto, para obter a distribuição de probabilidade, você deve ter acesso aos pesos do Professor. Mesmo com acesso, surge outro desafio...
Diga que o seu vocabulário tem 100k tokens e os dados têm 5 trilhões de tokens. Armazenar as probabilidades softmax sobre todo o vocabulário para cada token de entrada precisa de 500M GBs de memória sob precisão fp8. É aqui que passamos para a nossa segunda técnica ...👇
2️⃣ Destilação de rótulo duro - Use o LLM Professor para obter o token de saída. - Obtenha as probabilidades softmax do LLM Estudante. - Treine o Estudante para igualar a saída do Professor. O DeepSeek-R1 foi destilado em Qwen & Llama usando esta técnica. Verifique este visual 👇
3️⃣ Co-destilação - Comece com um LLM Professor e um LLM Estudante não treinados. - Gere probabilidades softmax sobre o lote atual de ambos os modelos. - Treine o LLM Professor com os rótulos difíceis. - Treine o LLM Estudante para igualar as probabilidades softmax do Professor. Verifique esta visualização 👇
A Meta usou co-destilação para treinar o Llama 4 Scout e o Maverick a partir do Llama 4 Behemoth. Claro, durante as fases iniciais, os rótulos suaves do Teacher LLM não serão precisos. É por isso que o Student LLM é treinado usando tanto rótulos suaves + rótulos duros de verdade.
Essas foram as três técnicas para treinar um LLM usando outro. Discutimos: - Destilação de rótulos suaves - Destilação de rótulos duros - Co-destilação Aqui está a visualização novamente para sua referência 👇
É isso! Se achou útil, compartilhe com a sua rede. Encontre-me → @akshay_pachaar ✔️ Para mais insights e tutoriais sobre LLMs, Agentes de IA e Aprendizado de Máquina!
Akshay 🚀
Akshay 🚀25/07, 20:38
Como os LLMs treinam LLMs, claramente explicado (com elementos visuais):
97,74K