假設你訓練了一個強化學習代理來在多樣的環境中最大化獎勵。 那麼如果你把它放進一個新的環境,第一個問題它會學會問的是「我在這裡的獎勵函數是什麼?」 它甚至可能學會建模其模擬器的動機來弄清楚這一點。
「我的目標/目的是什麼」感覺上是工具性的一致性。我想知道在某種意義上,這是否就是我們尋求上帝的原因。
24.72K