1 thập kỷ trước: Kỹ sư Gợi ý Học Tăng cường trong Mục 5.3 của «Học để Suy nghĩ …» [2]. Chuỗi tư duy thích ứng! Một mạng RL học cách truy vấn một mạng khác để lý luận trừu tượng và ra quyết định. Vượt ra ngoài Mô hình Thế giới năm 1990 cho việc lập kế hoạch từng mili giây [1].  [2] J. Schmidhuber (JS, 2015). «Về việc Học để Suy nghĩ: Lý thuyết Thông tin Thuật toán cho các Tổ hợp Mới của các Bộ điều khiển RL và các Mô hình Thế giới Tái diễn Neural.» ArXiv 1210.0118  [1] JS (1990). “Làm cho thế giới có thể phân biệt: Về việc sử dụng các mạng nơ-ron tự giám sát hoàn toàn tái diễn cho việc học tăng cường động và lập kế hoạch trong các môi trường không ổn định.” TR FKI-126-90, TUM. (Báo cáo này cũng giới thiệu sự tò mò nhân tạo và động lực nội tại thông qua các mạng đối kháng sinh.)
23,52K