假设你训练了一个强化学习代理,以在多样化的环境中最大化奖励。 那么如果你把它放入一个新环境中,它首先学会问的问题是“我在这里的奖励函数是什么?” 它甚至可能学会模拟其模拟器的动机来弄清楚这一点。
“我的目标/目的是什么”感觉上是工具性趋同的。我想知道在某种意义上,这是否就是我们寻求上帝的原因。
24.73K