المحولات مقابل مزيج من الخبراء في LLMs ، موضحة بوضوح (مع المرئيات):
مزيج الخبراء (MoE) هي بنية شائعة تستخدم "خبراء" مختلفين لتحسين نماذج المحولات. يشرح الصورة المرئية أدناه كيف تختلف عن المحولات. دعنا نتعمق لمعرفة المزيد عن وزارة التربية والتعليم!
يختلف المحول ووزارة التربية في كتلة وحدة فك التشفير: - يستخدم المحول شبكة تغذية أمامية. - تستخدم وزارة التربية والتعليم خبراء ، وهي شبكات تغذية إلى الأمام ولكنها أصغر مقارنة بتلك الموجودة في Transformer. أثناء الاستدلال ، يتم اختيار مجموعة فرعية من الخبراء. هذا يجعل الاستدلال أسرع في وزارة التربية والتعليم.
نظرا لأن الشبكة تحتوي على طبقات متعددة لفك التشفير: - يمر النص عبر خبراء مختلفين عبر الطبقات. - يختلف الخبراء المختارون أيضا بين الرموز المميزة. ولكن كيف يقرر النموذج الخبراء الذين يجب أن يكونوا مثاليين؟ جهاز التوجيه يفعل ذلك. دعونا نناقشها بعد ذلك.
يشبه جهاز التوجيه مصنفا متعدد الفئات ينتج درجات softmax على الخبراء. بناء على الدرجات ، نختار أفضل خبراء K. يتم تدريب جهاز التوجيه على الشبكة ويتعلم اختيار أفضل الخبراء. لكنها ليست مباشرة. دعونا نناقش التحديات!
التحدي 1) لاحظ هذا النمط في بداية التدريب: - يختار النموذج "الخبير 2" - الخبير يتحسن قليلا - قد يتم تحديده مرة أخرى - الخبير يتعلم المزيد - يتم تحديده مرة أخرى - يتعلم المزيد - وهلم جرا! العديد من الخبراء يذهبون إلى غير مدربين!
نحل هذا في خطوتين: - أضف ضوضاء إلى إخراج التغذية الأمامية للموجه حتى يتمكن الخبراء الآخرون من الحصول على سجلات أعلى. - اضبط جميع عمليات تسجيل K العلوية على -infinity. بعد softmax ، تصبح هذه الدرجات صفرا. بهذه الطريقة ، يحصل الخبراء الآخرون أيضا على فرصة للتدريب.
التحدي 2) قد يتعرض بعض الخبراء لرموز مميزة أكثر من غيرهم - مما يؤدي إلى خبراء غير مدربين تدريبا كافيا. نمنع ذلك عن طريق الحد من عدد الرموز المميزة التي يمكن للخبير معالجتها. إذا وصل أحد الخبراء إلى الحد الأقصى ، تمرير رمز الإدخال إلى أفضل خبير تالي بدلا من ذلك.
لدى MoEs المزيد من المعلمات لتحميلها. ومع ذلك ، يتم تنشيط جزء بسيط منها لأننا نختار بعض الخبراء فقط. هذا يؤدي إلى استنتاج أسرع. Mixtral 8x7B by @MistralAI هو أحد LLM الشهير الذي يعتمد على وزارة التربية والتعليم. إليك الصورة المرئية مرة أخرى التي تقارن بين المحولات ووزارة الطاقة!
إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك. تجدني → @akshay_pachaar ✔️ لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!
Akshay 🚀
Akshay 🚀‏21 يوليو، 20:30
المحولات مقابل مزيج من الخبراء في LLMs ، موضحة بوضوح (مع المرئيات):
‏‎228.75‏K