Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

1 dekada temu: Inżynier Prompt w Uczeniu Wzmocnionym w Rozdziale 5.3 „Uczenie się myśleć …” [2]. Adaptacyjny łańcuch myślenia! Sieć RL uczy się zapytywać inną sieć o abstrakcyjne rozumowanie i podejmowanie decyzji. Wykraczając poza Model Świata z lat 90. XX wieku do planowania na poziomie milisekund [1]. [2] J. Schmidhuber (JS, 2015). „O uczeniu się myśleć: Algorytmiczna teoria informacji dla nowych kombinacji kontrolerów RL i rekurencyjnych modeli świata neuronowego.” ArXiv 1210.0118 [1] JS (1990). „Uczynienie świata różniczkowalnym: O wykorzystaniu w pełni rekurencyjnych, samonadzorowanych sieci neuronowych do dynamicznego uczenia wzmocnionego i planowania w niestacjonarnych środowiskach.” TR FKI-126-90, TUM. (Ten raport wprowadził również sztuczną ciekawość i wewnętrzną motywację poprzez generatywne sieci przeciwników.)

23,5K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi