Před 1 desetiletím: Inženýr posilovaného učení v kapitole 5.3 článku «Učíme se myslet ...» [2]. Adaptivní myšlenkový řetězec! RL síť se učí dotazovat se jiné sítě pro abstraktní uvažování a rozhodování. Překonává světový model z roku 1990 v plánování milisekundy po milisekundách [1]. [2] J. Schmidhuber (JS, 2015). «O učení se myslet: Algoritmická teorie informace pro nové kombinace RL regulátorů a modelů rekurentního neuronového světa.» ArXiv 1210.0118 [1] JS (1990). "Making the world differentiable (Vytváření diferencovatelnosti): O využití plně rekurentních neuronových sítí pod vlastním dohledem pro dynamické zpětnovazební učení a plánování v nestacionárních prostředích." TR FKI-126-90, TUM. (Tato zpráva také představila umělou zvědavost a vnitřní motivaci prostřednictvím generativních nepřátelských sítí.)
23,42K