熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Transformer vs. LLM 專家的混合,清楚地解釋(帶有視覺效果):
專家混合(MoE)是一種流行的架構,利用不同的「專家」來改善變壓器模型。
下面的視覺圖解釋了它們與變壓器的不同之處。
讓我們深入了解MoE!
Transformer 和 MoE 在 decoder 塊中有所不同:
- Transformer 使用前饋網路。
- MoE 使用 experts,它們是前饋網路,但與 Transformer 中的網路相比更小。
在推理過程中,將選擇專家的子集。這使得MoE中的推理速度更快。
由於網絡有多個解碼器層:
- 文本在不同層之間通過不同的專家。
- 選擇的專家在標記之間也有所不同。
但模型如何決定哪些專家是理想的呢?
路由器會這樣做。讓我們接下來討論這個。
路由器就像一個多類別分類器,對專家產生 softmax 分數。根據這些分數,我們選擇前 K 名專家。
路由器與網絡一起訓練,並學會選擇最佳專家。
但這並不簡單。我們來討論一下挑戰吧!
挑戰 1) 注意訓練開始時的這個模式:
- 模型選擇了「專家 2」
- 專家變得稍微更好
- 可能會再次被選中
- 專家學習更多
- 再次被選中
- 它學習更多
- 依此類推!
許多專家都未經充分訓練!
我們分兩步解決這個問題:
- 向路由器的前饋輸出添加雜訊,以便其他專家可以獲得更高的logits。
- 將除前 K 個 logits 之外的所有 logits 設置為 -infinity。在softmax之後,這些分數將變為零。
這樣,其他專家也有機會接受培訓。
挑戰 2) 一些專家可能接觸到的代幣比其他人更多——這會導致專家訓練不足。
我們通過限制專家可以處理的代幣數量來防止這種情況。
如果專家達到限制,則將輸入代幣傳遞給下一位最佳專家。
MoEs 擁有更多的參數需要加載。然而,只有一部分參數被激活,因為我們只選擇一些專家。
這導致了更快的推理。由 @MistralAI 開發的 Mixtral 8x7B 是一個基於 MoE 的著名 LLM。
這裡再次展示了比較 Transformers 和 MoE 的視覺圖!
如果您覺得它很有見地,請與您的網路重新分享。
找到我 → @akshay_pachaar ✔️
有關 LLM、AI 代理和機器學習的更多見解和教程!

7月21日 20:30
Transformer vs. LLM 專家的混合,清楚地解釋(帶有視覺效果):
228.76K
熱門
排行
收藏