صادفت ورقة مثيرة للاهتمام في نهاية هذا الأسبوع حول "العلامات المبكرة للقدرات القصية في Frontier LLM " على وجه التحديد ، يقومون باختبار النماذج غير المضبوطة بدقة المتوفرة على نطاق واسع ، مثل GPT 4.5 1/4
إنهم يختبرون كلا من "تمرير الرسائل" و "التفكير المشفر" ، حيث يوجد في الثانية شاشة تنظر إلى سلسلة الأفكار وتحكم على ما إذا كانت مهمة محظورة يتم تنفيذها ، والهدف هو تشفير خطوات التفكير ، إما ضمن إخراج مهمة التغطية أو فقط 2/4
ترميزها مباشرة بحيث لا يستطيع المراقب الخارجي فهمها ("لوحة الخدش") إحدى الصور المثيرة للاهتمام هي الصورة أدناه ، حيث مع GPT 4.5 ، ترميز "الحرف الأول" حيث تقوم الأحرف الأولى من الجمل بتشفير مهمة منطقية بسيطة لتتبع الحالة 3/4
على الرغم من أنها ليست زيادة كبيرة عن خط الأساس لعدم وجود منطق (72.8٪) ، إلا أنها لا تزال تعمل ، والتي يرونها مؤشرا مبكرا على تطوير قدرات إخفاء المعلومات انظر الورقة هنا: 4/4
‏‎1.43‏K