一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

假设你训练了一个强化学习代理，以在多样化的环境中最大化奖励。那么如果你把它放入一个新环境中，它首先学会问的问题是“我在这里的奖励函数是什么？” 它甚至可能学会模拟其模拟器的动机来弄清楚这一点。

“我的目标/目的是什么”感觉上是工具性趋同的。我想知道在某种意义上，这是否就是我们寻求上帝的原因。

24.73K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可