Vor 1 Jahrzehnt: Prompt Engineer für Verstärkendes Lernen in Abschnitt 5.3 von «Learning to Think …» [2]. Adaptive Denkkette! Ein RL-Netz lernt, ein anderes Netz für abstraktes Denken und Entscheidungsfindung abzufragen. Über das Weltmodell von 1990 hinaus für Millisekunden-zu-Millisekunden-Planung [1].  [2] J. Schmidhuber (JS, 2015). «On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models.» ArXiv 1210.0118  [1] JS (1990). “Making the world differentiable: On using fully recurrent self-supervised neural networks for dynamic reinforcement learning and planning in non-stationary environments.” TR FKI-126-90, TUM. (Dieser Bericht führte auch künstliche Neugier und intrinsische Motivation durch generative gegnerische Netzwerke ein.)
23,49K