1 десятиліття тому: Інженер з підготовкою до навчання з підкріпленням в розділі 5.3 «Вчимося думати ...» [2]. Адаптивний ланцюжок думок! Мережа RL вчиться запитувати іншу мережу для абстрактних міркувань і прийняття рішень. Вихід за рамки Світової моделі 1990 року для планування мілісекунди на мілісекунду [1]. [2] Й. Шмідгубер (JS, 2015). «Про навчання мислити: алгоритмічна теорія інформації для нових комбінацій контролерів RL та рекурентних моделей нейронного світу.» ArXiv 1210.0118 [1] JS (1990). «Робимо світ диференційованим: про використання повністю рекурентних самоконтрольованих нейронних мереж для динамічного навчання та планування з підкріпленням у нестаціонарних середовищах.» ТР ФКІ-126-90, ТУМ. (Цей звіт також представив штучну цікавість і внутрішню мотивацію за допомогою генеративних змагальних мереж.)
23,43K