متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

بحث بشري جديد: ناقلات الشخصية. في بعض الأحيان تتعطل النماذج اللغوية وتنزلق إلى شخصيات غريبة ومقلقة. لماذا؟ في ورقة بحثية جديدة ، وجدنا "ناقلات الشخصية" - أنماط النشاط العصبي التي تتحكم في سمات مثل الشر أو التملق أو الهلوسة.

نجد أنه يمكننا استخدام متجهات الشخصية لمراقبة شخصية النموذج والتحكم فيها. اقرأ المنشور:

خط الأنابيب الخاص بنا مؤتمت بالكامل. ما عليك سوى وصف سمة ، وسنقدم لك متجه شخصية. وبمجرد أن يكون لدينا ناقل شخصية ، هناك الكثير الذي يمكننا فعله به ...

للتحقق من أنه يعمل ، يمكننا استخدام متجهات الشخصية لمراقبة شخصية النموذج. على سبيل المثال ، كلما شجعنا النموذج على أن يكون شريرا ، كلما "أضاء" ناقل الشر ، وزادت احتمالية تصرف النموذج بطرق خبيثة.

يمكننا أيضا توجيه النموذج نحو ناقل الشخصية وجعله يتبنى تلك الشخصية ، عن طريق حقنه في عمليات تنشيط النموذج. في هذه الأمثلة ، نحول النموذج سيئا بطرق مختلفة (يمكننا أيضا القيام بالعكس).

يتم تشكيل شخصيات ماجستير في القانون أثناء التدريب. أظهرت الأبحاث الحديثة حول "الاختلال الناشئ" أن بيانات التدريب يمكن أن يكون لها تأثيرات غير متوقعة على شخصية النموذج. هل يمكننا استخدام ناقلات الشخصية لمنع حدوث ذلك؟

نقدم طريقة تسمى التوجيه الوقائي ، والتي تتضمن التوجيه نحو ناقل الشخصية لمنع النموذج من اكتساب هذه السمة. إنه أمر غير منطقي ، لكنه مشابه للقاح - لمنع النموذج من أن يصبح شريرا ، فإننا في الواقع نحقنه بالشر.

يمكن لنواقل الشخصية أيضا تحديد بيانات التدريب التي ستعلم النموذج سمات الشخصية السيئة. في بعض الأحيان ، يقوم بالإبلاغ عن البيانات التي لم نكن لنلاحظها لولا ذلك.

اقرأ الورقة الكاملة عن ناقلات الشخصية:

قاد هذا البحث @RunjinChen و @andyarditi من خلال برنامج Anthropic Fellows ، تحت إشراف @Jack_W_Lindsey ، بالتعاون مع @sleight_henry و @OwainEvans_UK. يقبل برنامج الزمالة الطلبات:

نحن نوظف أيضا باحثين بدوام كامل للتحقيق في موضوعات مثل هذه بمزيد من العمق:

‏‎132.19‏K

الأفضل

المُتصدِّرة

التطبيقات المفضلة

رائج على السلسة

رائج على منصة X

أهم عمليات التمويل الأخيرة

الأبرز