مع تقدم النماذج ، فإن أحد المخاوف الرئيسية لسلامة الذكاء الاصطناعي هو المحاذاة / "المخطط" الخادعة - حيث قد يسعى الذكاء الاصطناعي سرا إلى تحقيق أهداف غير مقصودة. تقيم ورقتنا البحثية "تقييم النماذج الحدودية للتخفي والوعي الظرفي" ما إذا كانت النماذج الحالية يمكن أن تخطط.
‏‎78.17‏K