acum 1 deceniu: Inginer prompt de învățare prin întărire în Sec. 5.3 din "Învățarea de a gândi ..." [2]. Lanțul de gândire adaptiv! O rețea RL învață să interogheze o altă rețea pentru raționament abstract și luare a deciziilor. Depășind modelul mondial din 1990 pentru planificarea milisecundă cu milisecundă [1]. [2] J. Schmidhuber (JS, 2015). «Despre învățarea gândirii: teoria informației algoritmice pentru noi combinații de controlere RL și modele recurente ale lumii neuronale.» ArXiv 1210.0118 [1] JS (1990). "Făcând lumea diferențiabilă: Despre utilizarea rețelelor neuronale auto-supravegheate complet recurente pentru învățarea și planificarea prin întărire dinamică în medii non-staționare." TR FKI-126-90, TUM. (Acest raport a introdus, de asemenea, curiozitatea artificială și motivația intrinsecă prin rețele generative adversare.)
23,54K