Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1 dekada temu: Inżynier Prompt w Uczeniu Wzmocnionym w Rozdziale 5.3 „Uczenie się myśleć …” [2]. Adaptacyjny łańcuch myślenia! Sieć RL uczy się zapytywać inną sieć o abstrakcyjne rozumowanie i podejmowanie decyzji. Wykraczając poza Model Świata z lat 90. XX wieku do planowania na poziomie milisekund [1].
[2] J. Schmidhuber (JS, 2015). „O uczeniu się myśleć: Algorytmiczna teoria informacji dla nowych kombinacji kontrolerów RL i rekurencyjnych modeli świata neuronowego.” ArXiv 1210.0118
[1] JS (1990). „Uczynienie świata różniczkowalnym: O wykorzystaniu w pełni rekurencyjnych, samonadzorowanych sieci neuronowych do dynamicznego uczenia wzmocnionego i planowania w niestacjonarnych środowiskach.” TR FKI-126-90, TUM. (Ten raport wprowadził również sztuczną ciekawość i wewnętrzną motywację poprzez generatywne sieci przeciwników.)

23,5K
Najlepsze
Ranking
Ulubione