1 decennio fa: Ingegnere di Prompt per l'Apprendimento per Rinforzo nella Sezione 5.3 di «Learning to Think …» [2]. Catena di Pensiero Adattiva! Una rete RL impara a interrogare un'altra rete per il ragionamento astratto e la presa di decisioni. Andando oltre il Modello del Mondo del 1990 per la pianificazione millisecondo per millisecondo [1].  [2] J. Schmidhuber (JS, 2015). «On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models.» ArXiv 1210.0118  [1] JS (1990). “Rendere il mondo differenziabile: sull'uso di reti neurali ricorrenti completamente auto-supervisionate per l'apprendimento per rinforzo dinamico e la pianificazione in ambienti non stazionari.» TR FKI-126-90, TUM. (Questo rapporto ha anche introdotto la curiosità artificiale e la motivazione intrinseca attraverso reti generative avversarie.)
23,48K