几个月前,DeepMind的RL负责人David Silver在一档播客中表示,DeepMind构建了一个元强化学习系统,该系统学习了自己的强化学习算法,并击败了所有人类设计的算法。
9.44K