1 decennium geleden: Reinforcement Learning Prompt Engineer in Sec. 5.3 van «Learning to Think …» [2]. Adaptieve Denkketen! Een RL-netwerk leert een ander netwerk te ondervragen voor abstract redeneren en besluitvorming. Voorbij het World Model van 1990 voor milliseconde-voor-milliseconde planning [1].  [2] J. Schmidhuber (JS, 2015). «On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models.» ArXiv 1210.0118  [1] JS (1990). “Making the world differentiable: On using fully recurrent self-supervised neural networks for dynamic reinforcement learning and planning in non-stationary environments.” TR FKI-126-90, TUM. (Dit rapport introduceerde ook kunstmatige nieuwsgierigheid en intrinsieke motivatie door middel van generatieve adversariële netwerken.)
23,54K