1 之前的十年:在《学习思考……》第 5.3 节中担任强化学习提示工程师 [2]。自适应思维链!一个强化学习网络学习向另一个网络查询以进行抽象推理和决策。超越 1990 年的世界模型,实现毫秒级的规划 [1]。  [2] J. Schmidhuber (JS, 2015). «关于学习思考:用于 RL 控制器和递归神经世界模型的新组合的算法信息理论.» ArXiv 1210.0118  [1] JS (1990). “使世界可微分:关于使用完全递归自监督神经网络进行动态强化学习和在非平稳环境中规划.” TR FKI-126-90, TUM. (该报告还通过生成对抗网络引入了人工好奇心和内在动机。)
23.45K