Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1 tiår siden: Reinforcement Learning Prompt Engineer i avsnitt 5.3 av «Lære å tenke ...» [2]. Adaptiv tankekjede! Et RL-nett lærer å spørre et annet nett for abstrakt resonnement og beslutningstaking. Går utover verdensmodellen fra 1990 for planlegging av millisekund for millisekund [1].
[2] J. Schmidhuber (JS, 2015). «Om å lære å tenke: Algoritmisk informasjonsteori for nye kombinasjoner av RL-kontrollere og tilbakevendende nevrale verdensmodeller.» ArXiv 1210.0118
[1] JS (1990). "Å gjøre verden differensierbar: Om å bruke fullt tilbakevendende selvovervåkede nevrale nettverk for dynamisk forsterkende læring og planlegging i ikke-stasjonære miljøer.» TR FKI-126-90, TUM. (Denne rapporten introduserte også kunstig nysgjerrighet og indre motivasjon gjennom generative kontradiktoriske nettverk.)

23,47K
Topp
Rangering
Favoritter