一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Transformer与专家混合模型在大型语言模型中的比较，清晰解释（附图）：

专家混合（MoE）是一种流行的架构，利用不同的“专家”来改进Transformer模型。下面的视觉图解释了它们与Transformer的不同之处。让我们深入了解MoE！

Transformer 和 MoE 在解码器块中有所不同： - Transformer 使用前馈网络。 - MoE 使用专家，这些专家是前馈网络，但相比于 Transformer 中的网络更小。在推理过程中，会选择一部分专家。这使得 MoE 的推理速度更快。

由于网络具有多个解码器层： - 文本在不同层之间通过不同的专家。 - 选择的专家在不同的标记之间也有所不同。但是模型如何决定哪些专家是理想的呢？路由器会这样做。我们接下来讨论这个。

路由器就像一个多类分类器，产生专家的 softmax 分数。根据分数，我们选择前 K 个专家。路由器与网络一起训练，它学习选择最佳专家。但这并不简单。让我们讨论一下挑战！

挑战 1) 注意训练开始时的这个模式： - 模型选择了 "专家 2" - 该专家变得稍微更好 - 可能会再次被选择 - 该专家学习更多 - 再次被选择 - 学习更多 - 依此类推！许多专家的训练不足！

我们分两步解决这个问题： - 向路由器的前馈输出添加噪声，以便其他专家可以获得更高的logits。 - 将所有但前K个logits设置为负无穷大。经过softmax处理后，这些分数变为零。这样，其他专家也有机会进行训练。

挑战 2) 一些专家可能接触到的代币比其他专家更多——这会导致专家训练不足。我们通过限制专家可以处理的代币数量来防止这种情况。如果专家达到限制，输入的代币将传递给下一个最佳专家。

MoEs 拥有更多的参数需要加载。然而，由于我们只选择一些专家，因此只有一部分被激活。这导致了更快的推理。@MistralAI 的 Mixtral 8x7B 是一个基于 MoE 的著名 LLM。这里再次展示了比较 Transformers 和 MoE 的视觉图！

如果您觉得这篇文章有启发性，请与您的网络分享。找到我 → @akshay_pachaar ✔️ 获取更多关于LLM、AI代理和机器学习的见解和教程！

228.75K