如何训练LLM,清晰解释(附图):
大型语言模型不仅从原始文本中学习,还从其他模型中学习。 例如,谷歌的Gemma 2和3是从更大的Gemini模型中提炼出来的。 今天我们将介绍三种最常见的知识蒸馏方法。 让我们深入探讨吧!🚀
1️⃣ 软标签蒸馏 使用以下方法生成整个语料库的令牌级 softmax 概率: - 一个冻结的、预训练的教师 LLM - 一个未训练的学生 LLM 训练学生 LLM 以匹配教师的概率。 查看这个👇
在软标签蒸馏中,能够访问教师的概率确保了最大知识转移。 然而,要获得概率分布,您必须访问教师的权重。 即使有访问权限,另一个挑战也随之而来...
假设你的词汇量有10万标记,而数据有5万亿标记。 在fp8精度下,为每个输入标记存储整个词汇的softmax概率需要500M GB的内存。 这就是我们跳到第二种技术的地方...👇
2️⃣ 硬标签蒸馏 - 使用教师 LLM 获取输出令牌。 - 从学生 LLM 获取 softmax 概率。 - 训练学生以匹配教师的输出。 DeepSeek-R1 使用此技术蒸馏为 Qwen 和 Llama。 查看这个视觉 👇
3️⃣ 共同蒸馏 - 从未训练的教师和学生 LLM 开始。 - 从两个模型生成当前批次的 softmax 概率。 - 在硬标签上训练教师 LLM。 - 训练学生 LLM 以匹配教师的 softmax 概率。 查看这个视觉 👇
Meta使用共同蒸馏技术从Llama 4 Behemoth训练Llama 4 Scout和Maverick。 当然,在初始阶段,教师LLM的软标签不会准确。 这就是为什么学生LLM使用软标签和真实的硬标签进行训练。
这三种技术是使用一个 LLM 训练另一个 LLM。 我们讨论了: - 软标签蒸馏 - 硬标签蒸馏 - 共同蒸馏 这里再次提供视觉参考 👇
就这样结束了! 如果你觉得这很有启发性,请与您的网络分享。 找到我 → @akshay_pachaar ✔️ 获取更多关于LLMs、AI代理和机器学习的见解和教程!
Akshay 🚀
Akshay 🚀7月25日 20:38
如何训练LLM,清晰解释(附图):
97.73K