一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

假設你訓練了一個強化學習代理來在多樣的環境中最大化獎勵。那麼如果你把它放進一個新的環境，第一個問題它會學會問的是「我在這裡的獎勵函數是什麼？」它甚至可能學會建模其模擬器的動機來弄清楚這一點。

「我的目標/目的是什麼」感覺上是工具性的一致性。我想知道在某種意義上，這是否就是我們尋求上帝的原因。

24.72K

熱門

排行

收藏

鏈上熱點

X 熱門榜

近期融資

最受認可