متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

إذن هذا سؤال: كنت أفكر في بنية اللغة الإنجليزية وكيف يمكن أن تؤثر على تعلم التضمينات الموضعية. عدت إلى فيديو GPT2 الخاص ب @karpathy ورسم مصفوفة WPE ل GPT2 حيث تكون المؤامرة هي في الأساس قيم 3 قنوات محددة (من أصل 768 بعدا) كدالة للموضع (1024 ، حجم السياق). قال إن pos_embeddings المتعلمين لديهم هيكل فيها. شعرت بالفضول ورسمت نفس الشيء لطرازين مفتوحي المصدر: EleutherAI / gpt-neo-125M ، و facebook / opt-125m ، وحصلت على نفس النتيجة (على ما أعتقد؟). في ورقة المحولات الأصلية ، استخدم المؤلفون وظيفة جيبية ثابتة للتضمينات الموضعية. لماذا تتعلم النماذج البنية الجيبية باللغة الطبيعية؟ هل لأن اللغة الإنجليزية لها بنية جيبية؟ عادة ما تسبق الموضوعات الأفعال ، والجمل لها ترتيب زمني أو سببي ، وما إلى ذلك؟

‏‎91.77‏K

الأفضل

المُتصدِّرة

التطبيقات المفضلة

رائج على السلسة

رائج على منصة X

أهم عمليات التمويل الأخيرة

الأبرز