一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Transformer vs. LLM 專家的混合，清楚地解釋（帶有視覺效果）：

專家混合（MoE）是一種流行的架構，利用不同的「專家」來改善變壓器模型。下面的視覺圖解釋了它們與變壓器的不同之處。讓我們深入了解MoE！

Transformer 和 MoE 在 decoder 塊中有所不同： - Transformer 使用前饋網路。 - MoE 使用 experts，它們是前饋網路，但與 Transformer 中的網路相比更小。在推理過程中，將選擇專家的子集。這使得MoE中的推理速度更快。

由於網絡有多個解碼器層： - 文本在不同層之間通過不同的專家。 - 選擇的專家在標記之間也有所不同。但模型如何決定哪些專家是理想的呢？路由器會這樣做。讓我們接下來討論這個。

路由器就像一個多類別分類器，對專家產生 softmax 分數。根據這些分數，我們選擇前 K 名專家。路由器與網絡一起訓練，並學會選擇最佳專家。但這並不簡單。我們來討論一下挑戰吧！

挑戰 1) 注意訓練開始時的這個模式： - 模型選擇了「專家 2」 - 專家變得稍微更好 - 可能會再次被選中 - 專家學習更多 - 再次被選中 - 它學習更多 - 依此類推！許多專家都未經充分訓練！

我們分兩步解決這個問題： - 向路由器的前饋輸出添加雜訊，以便其他專家可以獲得更高的logits。 - 將除前 K 個 logits 之外的所有 logits 設置為 -infinity。在softmax之後，這些分數將變為零。這樣，其他專家也有機會接受培訓。

挑戰 2) 一些專家可能接觸到的代幣比其他人更多——這會導致專家訓練不足。我們通過限制專家可以處理的代幣數量來防止這種情況。如果專家達到限制，則將輸入代幣傳遞給下一位最佳專家。

MoEs 擁有更多的參數需要加載。然而，只有一部分參數被激活，因為我們只選擇一些專家。這導致了更快的推理。由 @MistralAI 開發的 Mixtral 8x7B 是一個基於 MoE 的著名 LLM。這裡再次展示了比較 Transformers 和 MoE 的視覺圖！

如果您覺得它很有見地，請與您的網路重新分享。找到我 → @akshay_pachaar ✔️ 有關 LLM、AI 代理和機器學習的更多見解和教程！

228.76K