热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
如何训练LLM,清晰解释(附图):
大型语言模型不仅从原始文本中学习,还从其他模型中学习。
例如,谷歌的Gemma 2和3是从更大的Gemini模型中提炼出来的。
今天我们将介绍三种最常见的知识蒸馏方法。
让我们深入探讨吧!🚀
1️⃣ 软标签蒸馏
使用以下方法生成整个语料库的令牌级 softmax 概率:
- 一个冻结的、预训练的教师 LLM
- 一个未训练的学生 LLM
训练学生 LLM 以匹配教师的概率。
查看这个👇
在软标签蒸馏中,能够访问教师的概率确保了最大知识转移。
然而,要获得概率分布,您必须访问教师的权重。
即使有访问权限,另一个挑战也随之而来...
假设你的词汇量有10万标记,而数据有5万亿标记。
在fp8精度下,为每个输入标记存储整个词汇的softmax概率需要500M GB的内存。
这就是我们跳到第二种技术的地方...👇
2️⃣ 硬标签蒸馏
- 使用教师 LLM 获取输出令牌。
- 从学生 LLM 获取 softmax 概率。
- 训练学生以匹配教师的输出。
DeepSeek-R1 使用此技术蒸馏为 Qwen 和 Llama。
查看这个视觉 👇
3️⃣ 共同蒸馏
- 从未训练的教师和学生 LLM 开始。
- 从两个模型生成当前批次的 softmax 概率。
- 在硬标签上训练教师 LLM。
- 训练学生 LLM 以匹配教师的 softmax 概率。
查看这个视觉 👇
Meta使用共同蒸馏技术从Llama 4 Behemoth训练Llama 4 Scout和Maverick。
当然,在初始阶段,教师LLM的软标签不会准确。
这就是为什么学生LLM使用软标签和真实的硬标签进行训练。
这三种技术是使用一个 LLM 训练另一个 LLM。
我们讨论了:
- 软标签蒸馏
- 硬标签蒸馏
- 共同蒸馏
这里再次提供视觉参考 👇
就这样结束了!
如果你觉得这很有启发性,请与您的网络分享。
找到我 → @akshay_pachaar ✔️
获取更多关于LLMs、AI代理和机器学习的见解和教程!

7月25日 20:38
如何训练LLM,清晰解释(附图):
97.73K
热门
排行
收藏