قبل عقد من الزمان: مهندس سريع للتعلم المعزز في القسم 5.3 من "تعلم التفكير ...» [2]. سلسلة الفكر التكيفية! تتعلم شبكة RL الاستعلام عن شبكة أخرى للتفكير المجرد واتخاذ القرار. تجاوز النموذج العالمي لعام 1990 للتخطيط بالمللي ثانية [1]. [2] ج. شميدهوبر (شبيبة ، 2015). «حول تعلم التفكير: نظرية المعلومات الخوارزمية لمجموعات جديدة من وحدات التحكم في RL ونماذج العالم العصبي المتكررة.» أرشيف 1210.0118 [1] شبيبة (1990). "جعل العالم قابلا للتمييز: حول استخدام الشبكات العصبية المتكررة بالكامل ذاتيا للإشراف من أجل التعلم المعزز الديناميكي والتخطيط في البيئات غير الثابتة." TR FKI-126-90 ، TUM. (قدم هذا التقرير أيضا فضولا مصطنعا ودافعا جوهريا من خلال شبكات الخصومة التوليدية.)
‏‎23.53‏K