إذن هذا سؤال: كنت أفكر في بنية اللغة الإنجليزية وكيف يمكن أن تؤثر على تعلم التضمينات الموضعية. عدت إلى فيديو GPT2 الخاص ب @karpathy ورسم مصفوفة WPE ل GPT2 حيث تكون المؤامرة هي في الأساس قيم 3 قنوات محددة (من أصل 768 بعدا) كدالة للموضع (1024 ، حجم السياق). قال إن pos_embeddings المتعلمين لديهم هيكل فيها. شعرت بالفضول ورسمت نفس الشيء لطرازين مفتوحي المصدر: EleutherAI / gpt-neo-125M ، و facebook / opt-125m ، وحصلت على نفس النتيجة (على ما أعتقد؟). في ورقة المحولات الأصلية ، استخدم المؤلفون وظيفة جيبية ثابتة للتضمينات الموضعية. لماذا تتعلم النماذج البنية الجيبية باللغة الطبيعية؟ هل لأن اللغة الإنجليزية لها بنية جيبية؟ عادة ما تسبق الموضوعات الأفعال ، والجمل لها ترتيب زمني أو سببي ، وما إلى ذلك؟
‏‎91.77‏K