1 dekada temu: Inżynier Prompt w Uczeniu Wzmocnionym w Rozdziale 5.3 „Uczenie się myśleć …” [2]. Adaptacyjny łańcuch myślenia! Sieć RL uczy się zapytywać inną sieć o abstrakcyjne rozumowanie i podejmowanie decyzji. Wykraczając poza Model Świata z lat 90. XX wieku do planowania na poziomie milisekund [1].  [2] J. Schmidhuber (JS, 2015). „O uczeniu się myśleć: Algorytmiczna teoria informacji dla nowych kombinacji kontrolerów RL i rekurencyjnych modeli świata neuronowego.” ArXiv 1210.0118  [1] JS (1990). „Uczynienie świata różniczkowalnym: O wykorzystaniu w pełni rekurencyjnych, samonadzorowanych sieci neuronowych do dynamicznego uczenia wzmocnionego i planowania w niestacjonarnych środowiskach.” TR FKI-126-90, TUM. (Ten raport wprowadził również sztuczną ciekawość i wewnętrzną motywację poprzez generatywne sieci przeciwników.)
23,5K