如果我给你一个可以在规模上尝试数十亿个动作、从错误中学习并适应的RL大脑,但你必须选择环境 你会选择什么环境?
1.11K