كانت الورقة البحثية "نماذج التفكير الهرمي" تقوم بجولات مؤخرا ، حيث جمعت عشرات الآلاف من الإعجابات على Twitter عبر العشرات من المواضيع شبه الفيروسية ، وهو أمر غير معتاد تماما بالنسبة لورقة بحثية. تدعي الورقة دقة بنسبة 40.3٪ على ARC-AGI-1 مع نموذج صغير (27 مليون معلمة) تم تدريبه من البداية دون أي بيانات تدريب خارجية - إذا كان ذلك حقيقيا ، فهذا يمثل اختراقا رئيسيا في المنطق. لقد قمت للتو بالغوص العميق على الورق وقاعدة التعليمات البرمجية ... إنها قراءة جيدة ومفصلة ولكنها سهلة المتابعة. أعتقد أن الأفكار المقدمة مثيرة للاهتمام للغاية ومن المحتمل أن تكون الهندسة المعمارية ذات قيمة. يذكرني المفهوم بالعديد من الأفكار المختلفة التي واجهتها خلال "العصر الذهبي" لأبحاث الهندسة المعمارية DL ، حوالي 2016-2018. لم يكن هذا النوع من البحث شائعا منذ فترة ، لذلك من الجيد أن نرى اهتماما متجددا بالبنى البديلة. ومع ذلك ، يبدو أن الإعداد التجريبي معيب بشكل خطير ، مما يعني أنه ليس لدينا حاليا إشارة تجريبية (على الأقل من ARC-AGI) حول ما إذا كانت البنية مفيدة بالفعل أم لا. تقوم تجربة ARC-AGI-1 بما يلي ، بناء على قراءتي لرمز إعداد البيانات: 1. تدرب على 876,404 مهمة ، وهي متغيرات تم إنشاؤها بواسطة الزيادة ل 960 مهمة أصلية: ... 400 من ARC-AGI-1 / قطار ... 400 من ARC-AGI-1 / eval ... 160 من ConceptARC 2. اختبر على 400 مهمة (ARC-AGI-1 / eval) ، عن طريق زيادة كل مهمة إلى ~ 1000 متغير (في الواقع ، يبلغ إجمالي المهام 368،151 فقط بسبب خصوصيات عملية التعزيز) ، وإنتاج تنبؤ لكل متغير ، وتقليل التنبؤات إلى N = 2 من خلال تصويت الأغلبية. باختصار: إنهم يتدربون على بيانات الاختبار. قد تسأل ، انتظر ، لماذا الدقة 40٪ إذن ، بدلا من 100٪؟ هل النموذج غير لائق بشدة؟ ذلك لأن بيانات التدريب وبيانات الاختبار تمثل نفس المهام الأصلية * في أشكال مختلفة *. يتم تطبيق زيادة البيانات بشكل مستقل على مهام التقييم في بيانات التدريب ومهام التقييم في بيانات الاختبار. لذا فإن ما تقيسه التجربة ، تقريبا ، هو كيف يتمكن النموذج من التعميم على المتغيرات التي تم إنشاؤها إجرائية لنفس المهام (أي ما إذا كان النموذج يمكنه تعلم عكس مجموعة ثابتة من تحويلات الشبكة الثابتة). لذا -- لا تتحمس كثيرا حتى الآن. لكنني أعتقد أن هذا النوع من أبحاث الهندسة المعمارية ذو قيمة (عندما تكون مصحوبة بإشارة تحقق تجريبية مناسبة) وأن فكرة إدارة الموارد البشرية مثيرة للاهتمام للغاية. أيضا ، لكي أكون واضحا ، لا أعتقد أن المؤلفين كان لديهم أي نية لتضليل وإخفاء المشكلة التجريبية - ربما لم يدركوا ما يعنيه إعداد التدريب الخاص بهم في الواقع.
‏‎19.86‏K