هذا لا يفاجئني ، ولكن يجب أن يكون واضحا أن هذا له آثار كبيرة حتى على النماذج والبيانات غير المنحرفة. ما أعنيه هو أنه من المفترض أن ينتقل هذا أيضا إلى تحيزات أخرى حتى لو كانت أكثر دقة أو مقبولة اجتماعيا. إذا فضلت GPT 4o أوباما على ترامب أو ألمانيا على فرنسا ، فمن المفترض أن تحمل جميع إنتاجاتها الأخرى هذا التحيز. وقد تم إنشاء الكثير من المعلومات على الإنترنت معها ، وجميع نماذج LLM الأخرى على مدار السنوات القليلة الماضية. لذلك نحن نصنع نوعا من الحساء الدائم حيث يختلط مخرجات هذه النماذج بكل ثرثرتنا ، ويتم إدخالها مرة أخرى. ربما يكون هذا أمرا جيدا ، ربما يكون نوعا من الارتداد المتوسط حيث تمتزج تحيزاتهم في مادة لزجة متجانسة. ربما تكون نوبة غضب Grok في الأسبوع الماضي قد أنتجت بيانات مسمومة تحتوي على تحيزات مجنونة. ولكن في غضون بضعة أشهر أخرى ، سيتم تخفيف هذا الانحراف عن المتوسط ببيانات جديدة. هذه مساحات متجهة لمئات الآلاف من الأبعاد لكل طبقة ، فلا ينبغي أن يكون مفاجئا أن تؤثر التحيزات في بعض المناطق على الهيكل بأكمله ويمكن نقلها أو إعادة بنائها.
Owain Evans
Owain Evans‏23 يوليو، 00:06
ورقة جديدة ونتيجة مفاجئة. تنقل LLMs السمات إلى نماذج أخرى عبر إشارات مخفية في البيانات. يمكن لمجموعات البيانات المكونة من 3 أرقام فقط أن تنقل حب البوم أو الميول الشريرة. 🧵
‏‎1.54‏K