Transformer so với Mixture of Experts trong các Mô hình Ngôn ngữ Lớn (LLMs), được giải thích rõ ràng (kèm hình ảnh):
Mixture of Experts (MoE) là một kiến trúc phổ biến sử dụng các "chuyên gia" khác nhau để cải thiện các mô hình Transformer. Hình ảnh dưới đây giải thích cách mà chúng khác với các Transformer. Hãy cùng tìm hiểu thêm về MoE!
Transformer và MoE khác nhau ở khối giải mã: - Transformer sử dụng mạng hồi tiếp. - MoE sử dụng các chuyên gia, là các mạng hồi tiếp nhưng nhỏ hơn so với trong Transformer. Trong quá trình suy diễn, một tập hợp các chuyên gia được chọn. Điều này làm cho quá trình suy diễn nhanh hơn trong MoE.
Vì mạng lưới có nhiều lớp giải mã: - văn bản đi qua các chuyên gia khác nhau giữa các lớp. - các chuyên gia được chọn cũng khác nhau giữa các token. Nhưng làm thế nào mà mô hình quyết định chuyên gia nào là lý tưởng? Router làm điều đó. Hãy cùng thảo luận về nó tiếp theo.
Bộ định tuyến giống như một bộ phân loại đa lớp, tạo ra các điểm số softmax cho các chuyên gia. Dựa trên các điểm số, chúng ta chọn K chuyên gia hàng đầu. Bộ định tuyến được đào tạo cùng với mạng và nó học cách chọn những chuyên gia tốt nhất. Nhưng điều đó không đơn giản. Hãy thảo luận về những thách thức!
Thách thức 1) Chú ý đến mẫu này ở đầu quá trình đào tạo: - Mô hình chọn "Chuyên gia 2" - Chuyên gia đó cải thiện một chút - Nó có thể được chọn lại - Chuyên gia học hỏi thêm - Nó lại được chọn - Nó học hỏi thêm - Và cứ như vậy! Nhiều chuyên gia bị đào tạo không đủ!
Chúng tôi giải quyết điều này trong hai bước: - Thêm nhiễu vào đầu ra feed-forward của bộ định tuyến để các chuyên gia khác có thể nhận được logits cao hơn. - Đặt tất cả trừ K logits hàng đầu thành -vô cùng. Sau softmax, các điểm số này trở thành zero. Bằng cách này, các chuyên gia khác cũng có cơ hội để đào tạo.
Thách thức 2) Một số chuyên gia có thể tiếp xúc với nhiều token hơn những người khác—dẫn đến việc các chuyên gia không được đào tạo đầy đủ. Chúng tôi ngăn chặn điều này bằng cách giới hạn số lượng token mà một chuyên gia có thể xử lý. Nếu một chuyên gia đạt đến giới hạn, token đầu vào sẽ được chuyển cho chuyên gia tốt nhất tiếp theo.
MoEs có nhiều tham số hơn để tải. Tuy nhiên, chỉ một phần trong số đó được kích hoạt vì chúng tôi chỉ chọn một số chuyên gia. Điều này dẫn đến việc suy diễn nhanh hơn. Mixtral 8x7B của @MistralAI là một LLM nổi tiếng dựa trên MoE. Đây là hình ảnh so sánh giữa Transformers và MoE!
Nếu bạn thấy nội dung này hữu ích, hãy chia sẻ lại với mạng lưới của bạn. Tìm tôi → @akshay_pachaar ✔️ Để biết thêm thông tin chi tiết và hướng dẫn về LLMs, AI Agents, và Machine Learning!
Akshay 🚀
Akshay 🚀20:30 21 thg 7
Transformer so với Mixture of Experts trong các Mô hình Ngôn ngữ Lớn (LLMs), được giải thích rõ ràng (kèm hình ảnh):
228,75K