يكشف اختبار أفضل النماذج اليوم عن فجوات معرفية أساسية: فهي تفوت التعليمات ، وتستقيل بدلا من دفع العقبات السابقة ، وتفشل في التعافي من الأخطاء ، حتى مع الإمساك باليد بعناية. لا أعتقد أن هذه القدرات ستظهر فقط من خلال "عدم الانسجام".
Mechanize
Mechanize‏25 يوليو 2025
لا تكمن مشكلة النماذج الحالية في أن لديهم قدرات خفية تنتظر فتحها: إنها تفتقر بشكل أساسي إلى القدرات المعرفية اللازمة للقيام بعمل قيم. "Unhaltbling" سيأخذنا فقط حتى الآن.
‏‎10.25‏K