1 decennium sedan: Reinforcement Learning Prompt Engineer i avsnitt 5.3 av «Att lära sig att tänka ...» [2]. Adaptiv tankekedja! Ett RL-nät lär sig att fråga ett annat nät för abstrakt resonemang och beslutsfattande. Att gå bortom 1990 års världsmodell för millisekund-för-millisekund-planering [1]. [2] J. Schmidhuber (JS, 2015). «Om att lära sig att tänka: Algoritmisk informationsteori för nya kombinationer av RL-kontroller och återkommande neurala världsmodeller.» ArXiv 1210.0118 [1] JS (1990). "Att göra världen differentierbar: Om att använda helt återkommande självövervakade neurala nätverk för dynamisk förstärkningsinlärning och planering i icke-stationära miljöer.» TR FKI-126-90, TUM. (Denna rapport introducerade också artificiell nyfikenhet och inneboende motivation genom generativa kontradiktoriska nätverk.)
23,62K