بحث بشري جديد: ناقلات الشخصية. في بعض الأحيان تتعطل النماذج اللغوية وتنزلق إلى شخصيات غريبة ومقلقة. لماذا؟ في ورقة بحثية جديدة ، وجدنا "ناقلات الشخصية" - أنماط النشاط العصبي التي تتحكم في سمات مثل الشر أو التملق أو الهلوسة.
نجد أنه يمكننا استخدام متجهات الشخصية لمراقبة شخصية النموذج والتحكم فيها. اقرأ المنشور:
خط الأنابيب الخاص بنا مؤتمت بالكامل. ما عليك سوى وصف سمة ، وسنقدم لك متجه شخصية. وبمجرد أن يكون لدينا ناقل شخصية ، هناك الكثير الذي يمكننا فعله به ...
للتحقق من أنه يعمل ، يمكننا استخدام متجهات الشخصية لمراقبة شخصية النموذج. على سبيل المثال ، كلما شجعنا النموذج على أن يكون شريرا ، كلما "أضاء" ناقل الشر ، وزادت احتمالية تصرف النموذج بطرق خبيثة.
يمكننا أيضا توجيه النموذج نحو ناقل الشخصية وجعله يتبنى تلك الشخصية ، عن طريق حقنه في عمليات تنشيط النموذج. في هذه الأمثلة ، نحول النموذج سيئا بطرق مختلفة (يمكننا أيضا القيام بالعكس).
يتم تشكيل شخصيات ماجستير في القانون أثناء التدريب. أظهرت الأبحاث الحديثة حول "الاختلال الناشئ" أن بيانات التدريب يمكن أن يكون لها تأثيرات غير متوقعة على شخصية النموذج. هل يمكننا استخدام ناقلات الشخصية لمنع حدوث ذلك؟
نقدم طريقة تسمى التوجيه الوقائي ، والتي تتضمن التوجيه نحو ناقل الشخصية لمنع النموذج من اكتساب هذه السمة. إنه أمر غير منطقي ، لكنه مشابه للقاح - لمنع النموذج من أن يصبح شريرا ، فإننا في الواقع نحقنه بالشر.
يمكن لنواقل الشخصية أيضا تحديد بيانات التدريب التي ستعلم النموذج سمات الشخصية السيئة. في بعض الأحيان ، يقوم بالإبلاغ عن البيانات التي لم نكن لنلاحظها لولا ذلك.
اقرأ الورقة الكاملة عن ناقلات الشخصية:
قاد هذا البحث @RunjinChen و @andyarditi من خلال برنامج Anthropic Fellows ، تحت إشراف @Jack_W_Lindsey ، بالتعاون مع @sleight_henry و @OwainEvans_UK. يقبل برنامج الزمالة الطلبات:
Anthropic
Anthropic‏30 يوليو 2025
نحن نجري جولة أخرى من برنامج Anthropic Fellows. إذا كنت مهندسا أو باحثا يتمتع بخبرة قوية في الترميز أو التقنية، فيمكنك التقدم بطلب للحصول على التمويل والحوسبة والإرشاد من Anthropic، بدءا من شهر أكتوبر. سيكون هناك حوالي 32 مكانا.
نحن نوظف أيضا باحثين بدوام كامل للتحقيق في موضوعات مثل هذه بمزيد من العمق:
Jack Lindsey
Jack Lindsey‏24 يوليو 2025
نحن نطلق فريق "الطب النفسي الذكاء الاصطناعي" كجزء من جهود التفسير في Anthropic!  سنقوم بالبحث عن ظواهر مثل الشخصيات النموذجية والدوافع والوعي الظرفي ، وكيف تؤدي إلى سلوكيات مخيفة / غير مزعجة. نحن نوظف - انضم إلينا!
‏‎132.19‏K