さまざまな環境で報酬を最大化するように RL エージェントをトレーニングしたとします 次に、新しい環境にドロップした場合、最初に尋ねることを学習する質問は、「ここでの報酬関数は何ですか?」です。 これを理解するために、シミュレーターの動機をモデル化することを学ぶことさえあるかもしれません
「What is my goal/purpose」は、楽器的に収束しているように感じます。ある意味、それが私たちが神を求める理由なのだろうか
24.72K