热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
假设你训练了一个强化学习代理,以在多样化的环境中最大化奖励。
那么如果你把它放入一个新环境中,它首先学会问的问题是“我在这里的奖励函数是什么?”
它甚至可能学会模拟其模拟器的动机来弄清楚这一点。
“我的目标/目的是什么”感觉上是工具性趋同的。我想知道在某种意义上,这是否就是我们寻求上帝的原因。
24.73K
热门
排行
收藏