Transformer与专家混合模型在大型语言模型中的比较,清晰解释(附图):
专家混合(MoE)是一种流行的架构,利用不同的“专家”来改进Transformer模型。 下面的视觉图解释了它们与Transformer的不同之处。 让我们深入了解MoE!
Transformer 和 MoE 在解码器块中有所不同: - Transformer 使用前馈网络。 - MoE 使用专家,这些专家是前馈网络,但相比于 Transformer 中的网络更小。 在推理过程中,会选择一部分专家。这使得 MoE 的推理速度更快。
由于网络具有多个解码器层: - 文本在不同层之间通过不同的专家。 - 选择的专家在不同的标记之间也有所不同。 但是模型如何决定哪些专家是理想的呢? 路由器会这样做。我们接下来讨论这个。
路由器就像一个多类分类器,产生专家的 softmax 分数。根据分数,我们选择前 K 个专家。 路由器与网络一起训练,它学习选择最佳专家。 但这并不简单。让我们讨论一下挑战!
挑战 1) 注意训练开始时的这个模式: - 模型选择了 "专家 2" - 该专家变得稍微更好 - 可能会再次被选择 - 该专家学习更多 - 再次被选择 - 学习更多 - 依此类推! 许多专家的训练不足!
我们分两步解决这个问题: - 向路由器的前馈输出添加噪声,以便其他专家可以获得更高的logits。 - 将所有但前K个logits设置为负无穷大。经过softmax处理后,这些分数变为零。 这样,其他专家也有机会进行训练。
挑战 2) 一些专家可能接触到的代币比其他专家更多——这会导致专家训练不足。 我们通过限制专家可以处理的代币数量来防止这种情况。 如果专家达到限制,输入的代币将传递给下一个最佳专家。
MoEs 拥有更多的参数需要加载。然而,由于我们只选择一些专家,因此只有一部分被激活。 这导致了更快的推理。@MistralAI 的 Mixtral 8x7B 是一个基于 MoE 的著名 LLM。 这里再次展示了比较 Transformers 和 MoE 的视觉图!
如果您觉得这篇文章有启发性,请与您的网络分享。 找到我 → @akshay_pachaar ✔️ 获取更多关于LLM、AI代理和机器学习的见解和教程!
Akshay 🚀
Akshay 🚀7月21日 20:30
Transformer与专家混合模型在大型语言模型中的比较,清晰解释(附图):
228.75K