Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1 decennio fa: Ingegnere di Prompt per l'Apprendimento per Rinforzo nella Sezione 5.3 di «Learning to Think …» [2]. Catena di Pensiero Adattiva! Una rete RL impara a interrogare un'altra rete per il ragionamento astratto e la presa di decisioni. Andando oltre il Modello del Mondo del 1990 per la pianificazione millisecondo per millisecondo [1].
[2] J. Schmidhuber (JS, 2015). «On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models.» ArXiv 1210.0118
[1] JS (1990). “Rendere il mondo differenziabile: sull'uso di reti neurali ricorrenti completamente auto-supervisionate per l'apprendimento per rinforzo dinamico e la pianificazione in ambienti non stazionari.» TR FKI-126-90, TUM. (Questo rapporto ha anche introdotto la curiosità artificiale e la motivazione intrinseca attraverso reti generative avversarie.)

23,48K
Principali
Ranking
Preferiti