热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Transformer与专家混合模型在大型语言模型中的比较,清晰解释(附图):
专家混合(MoE)是一种流行的架构,利用不同的“专家”来改进Transformer模型。
下面的视觉图解释了它们与Transformer的不同之处。
让我们深入了解MoE!
Transformer 和 MoE 在解码器块中有所不同:
- Transformer 使用前馈网络。
- MoE 使用专家,这些专家是前馈网络,但相比于 Transformer 中的网络更小。
在推理过程中,会选择一部分专家。这使得 MoE 的推理速度更快。
由于网络具有多个解码器层:
- 文本在不同层之间通过不同的专家。
- 选择的专家在不同的标记之间也有所不同。
但是模型如何决定哪些专家是理想的呢?
路由器会这样做。我们接下来讨论这个。
路由器就像一个多类分类器,产生专家的 softmax 分数。根据分数,我们选择前 K 个专家。
路由器与网络一起训练,它学习选择最佳专家。
但这并不简单。让我们讨论一下挑战!
挑战 1) 注意训练开始时的这个模式:
- 模型选择了 "专家 2"
- 该专家变得稍微更好
- 可能会再次被选择
- 该专家学习更多
- 再次被选择
- 学习更多
- 依此类推!
许多专家的训练不足!
我们分两步解决这个问题:
- 向路由器的前馈输出添加噪声,以便其他专家可以获得更高的logits。
- 将所有但前K个logits设置为负无穷大。经过softmax处理后,这些分数变为零。
这样,其他专家也有机会进行训练。
挑战 2) 一些专家可能接触到的代币比其他专家更多——这会导致专家训练不足。
我们通过限制专家可以处理的代币数量来防止这种情况。
如果专家达到限制,输入的代币将传递给下一个最佳专家。
MoEs 拥有更多的参数需要加载。然而,由于我们只选择一些专家,因此只有一部分被激活。
这导致了更快的推理。@MistralAI 的 Mixtral 8x7B 是一个基于 MoE 的著名 LLM。
这里再次展示了比较 Transformers 和 MoE 的视觉图!
如果您觉得这篇文章有启发性,请与您的网络分享。
找到我 → @akshay_pachaar ✔️
获取更多关于LLM、AI代理和机器学习的见解和教程!

7月21日 20:30
Transformer与专家混合模型在大型语言模型中的比较,清晰解释(附图):
228.75K
热门
排行
收藏