supposons que vous ayez entraîné un agent RL pour maximiser la récompense dans des environnements divers alors, si vous le placiez dans un nouvel environnement, la première question qu'il apprendrait à poser est "quelle est ma fonction de récompense ici ?" il pourrait même apprendre à modéliser les motivations de ses simulateurs pour comprendre cela
« quel est mon but / objectif » semble convergent sur le plan instrumental. Je me demande si, d'une certaine manière, c'est pourquoi nous cherchons Dieu.
24,74K