Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
supposons que vous ayez entraîné un agent RL pour maximiser la récompense dans des environnements divers
alors, si vous le placiez dans un nouvel environnement, la première question qu'il apprendrait à poser est "quelle est ma fonction de récompense ici ?"
il pourrait même apprendre à modéliser les motivations de ses simulateurs pour comprendre cela
« quel est mon but / objectif » semble convergent sur le plan instrumental. Je me demande si, d'une certaine manière, c'est pourquoi nous cherchons Dieu.
24,74K
Meilleurs
Classement
Favoris