1 tiår siden: Reinforcement Learning Prompt Engineer i avsnitt 5.3 av «Lære å tenke ...» [2]. Adaptiv tankekjede! Et RL-nett lærer å spørre et annet nett for abstrakt resonnement og beslutningstaking. Går utover verdensmodellen fra 1990 for planlegging av millisekund for millisekund [1]. [2] J. Schmidhuber (JS, 2015). «Om å lære å tenke: Algoritmisk informasjonsteori for nye kombinasjoner av RL-kontrollere og tilbakevendende nevrale verdensmodeller.» ArXiv 1210.0118 [1] JS (1990). "Å gjøre verden differensierbar: Om å bruke fullt tilbakevendende selvovervåkede nevrale nettverk for dynamisk forsterkende læring og planlegging i ikke-stasjonære miljøer.» TR FKI-126-90, TUM. (Denne rapporten introduserte også kunstig nysgjerrighet og indre motivasjon gjennom generative kontradiktoriske nettverk.)
23,47K