Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
acum 1 deceniu: Inginer prompt de învățare prin întărire în Sec. 5.3 din "Învățarea de a gândi ..." [2]. Lanțul de gândire adaptiv! O rețea RL învață să interogheze o altă rețea pentru raționament abstract și luare a deciziilor. Depășind modelul mondial din 1990 pentru planificarea milisecundă cu milisecundă [1].
[2] J. Schmidhuber (JS, 2015). «Despre învățarea gândirii: teoria informației algoritmice pentru noi combinații de controlere RL și modele recurente ale lumii neuronale.» ArXiv 1210.0118
[1] JS (1990). "Făcând lumea diferențiabilă: Despre utilizarea rețelelor neuronale auto-supravegheate complet recurente pentru învățarea și planificarea prin întărire dinamică în medii non-staționare." TR FKI-126-90, TUM. (Acest raport a introdus, de asemenea, curiozitatea artificială și motivația intrinsecă prin rețele generative adversare.)

23,54K
Limită superioară
Clasament
Favorite