DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

stel je voor dat je een RL-agent hebt getraind om de beloning te maximaliseren in diverse omgevingen als je het dan in een nieuwe omgeving plaatst, is de eerste vraag die het leert stellen: "wat is mijn beloningsfunctie hier?" het zou zelfs kunnen leren om de motieven van zijn simulators te modelleren om dit uit te zoeken

"wat is mijn doel/doelstelling" voelt instrumenteel convergent. Ik vraag me af of dat in zekere zin is waarom we God zoeken.

24,72K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste