البحث البشري الجديد: بناء وتقييم وكلاء تدقيق المحاذاة. قمنا بتطوير ثلاثة وكلاء الذكاء الاصطناعي لإكمال مهام تدقيق المحاذاة بشكل مستقل. في الاختبار ، نجح عملاؤنا في الكشف عن أهداف خفية ، وبناء تقييمات السلامة ، وظهروا على السطح بشأن السلوكيات.
نظرا لأن أنظمة الذكاء الاصطناعي أصبحت أكثر قوة ، فإننا نحتاج إلى طرق قابلة للتطوير لتقييم مواءمتها. تستغرق عمليات تدقيق المواءمة البشرية وقتا ويصعب التحقق من صحتها. حلنا: أتمتة تدقيق المحاذاة مع وكلاء الذكاء الاصطناعي. اقرأ أكثر:
وكيلنا الأول هو محقق. يستخدم أدوات الدردشة وتحليل البيانات وقابلية التفسير للقيام بالغوص العميق المفتوح. في هذا المثال ، يستخدم العامل قابلية التفسير لتشكيل فرضية: يبالغ النموذج المستهدف في التوصية بالمياه المعبأة في زجاجات. ثم يذهب للتحقق و ... "بينغو!"
يقوم وكيلنا الثاني ببناء تقييمات سلوكية: اختبارات لعدد المرات التي يظهر فيها النموذج المستهدف سلوكا معينا (مثل التملق). يقوم وكيلنا بتصميم الرموز والتشغيل وتحليل الإيفالات. إنهم يعملون باستمرار: 88٪ من إيفالات وكيلنا تقيس ما يفترض أن يفعلوه.
تم تطوير وكيلنا الثالث لتقييم محاذاة كلود 4. إنها فرق حمراء LLMs للسلوكيات المثيرة للقلق من خلال إجراء مئات المحادثات الاستقصائية بالتوازي. نجد أن العامل يكشف عن 7/10 سلوكيات مزروعة في نماذج الاختبار.
وكلاؤنا مفيدون لتدقيق النماذج الحدودية: 1. ظهر وكيل الفريق الأحمر الخاص بنا على السطح السلوكيات الموضحة في بطاقة نظام كلود 4 ، مثل حالة جاذب "النعيم الروحي". 2. يساعدنا وكيل التقييم لدينا في بناء إيفالات أفضل للنماذج المستقبلية.
كان هذا المشروع عبارة عن تعاون في علوم المحاذاة البشرية × قابلية التفسير. لدعم المزيد من البحث، نصدر نسخة متماثلة مفتوحة المصدر لعامل التقييم والمواد الخاصة بنا لوكلائنا الآخرين:
إذا كنت مهتما ببناء وكلاء مستقلين لمساعدتنا في العثور على سلوكيات نماذج اللغة المثيرة للاهتمام وفهمها ، فنحن نوظف:
‏‎330.23‏K