stel je voor dat je een RL-agent hebt getraind om de beloning te maximaliseren in diverse omgevingen als je het dan in een nieuwe omgeving plaatst, is de eerste vraag die het leert stellen: "wat is mijn beloningsfunctie hier?" het zou zelfs kunnen leren om de motieven van zijn simulators te modelleren om dit uit te zoeken
"wat is mijn doel/doelstelling" voelt instrumenteel convergent. Ik vraag me af of dat in zekere zin is waarom we God zoeken.
24,72K