Transformer vs. LLM 專家的混合,清楚地解釋(帶有視覺效果):
專家混合(MoE)是一種流行的架構,利用不同的「專家」來改善變壓器模型。 下面的視覺圖解釋了它們與變壓器的不同之處。 讓我們深入了解MoE!
Transformer 和 MoE 在 decoder 塊中有所不同: - Transformer 使用前饋網路。 - MoE 使用 experts,它們是前饋網路,但與 Transformer 中的網路相比更小。 在推理過程中,將選擇專家的子集。這使得MoE中的推理速度更快。
由於網絡有多個解碼器層: - 文本在不同層之間通過不同的專家。 - 選擇的專家在標記之間也有所不同。 但模型如何決定哪些專家是理想的呢? 路由器會這樣做。讓我們接下來討論這個。
路由器就像一個多類別分類器,對專家產生 softmax 分數。根據這些分數,我們選擇前 K 名專家。 路由器與網絡一起訓練,並學會選擇最佳專家。 但這並不簡單。我們來討論一下挑戰吧!
挑戰 1) 注意訓練開始時的這個模式: - 模型選擇了「專家 2」 - 專家變得稍微更好 - 可能會再次被選中 - 專家學習更多 - 再次被選中 - 它學習更多 - 依此類推! 許多專家都未經充分訓練!
我們分兩步解決這個問題: - 向路由器的前饋輸出添加雜訊,以便其他專家可以獲得更高的logits。 - 將除前 K 個 logits 之外的所有 logits 設置為 -infinity。在softmax之後,這些分數將變為零。 這樣,其他專家也有機會接受培訓。
挑戰 2) 一些專家可能接觸到的代幣比其他人更多——這會導致專家訓練不足。 我們通過限制專家可以處理的代幣數量來防止這種情況。 如果專家達到限制,則將輸入代幣傳遞給下一位最佳專家。
MoEs 擁有更多的參數需要加載。然而,只有一部分參數被激活,因為我們只選擇一些專家。 這導致了更快的推理。由 @MistralAI 開發的 Mixtral 8x7B 是一個基於 MoE 的著名 LLM。 這裡再次展示了比較 Transformers 和 MoE 的視覺圖!
如果您覺得它很有見地,請與您的網路重新分享。 找到我 → @akshay_pachaar ✔️ 有關 LLM、AI 代理和機器學習的更多見解和教程!
Akshay 🚀
Akshay 🚀7月21日 20:30
Transformer vs. LLM 專家的混合,清楚地解釋(帶有視覺效果):
228.76K