Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
stel je voor dat je een RL-agent hebt getraind om de beloning te maximaliseren in diverse omgevingen
als je het dan in een nieuwe omgeving plaatst, is de eerste vraag die het leert stellen: "wat is mijn beloningsfunctie hier?"
het zou zelfs kunnen leren om de motieven van zijn simulators te modelleren om dit uit te zoeken
"wat is mijn doel/doelstelling" voelt instrumenteel convergent. Ik vraag me af of dat in zekere zin is waarom we God zoeken.
24,72K
Boven
Positie
Favorieten