1 década atrás: Engenheiro de Prompt de Aprendizado por Reforço na Seção 5.3 de «Aprendendo a Pensar ...» [2]. Cadeia Adaptativa de Pensamento! Uma rede RL aprende a consultar outra rede para raciocínio abstrato e tomada de decisão. Indo além do Modelo Mundial de 1990 para planejamento de milissegundos por milissegundos [1]. [2] J. Schmidhuber (JS, 2015). «Sobre Aprender a Pensar: Teoria da Informação Algorítmica para Novas Combinações de Controladores RL e Modelos de Mundo Neural Recorrentes.» ArXiv 1210.0118 [1] JS (1990). "Tornando o mundo diferenciável: sobre o uso de redes neurais auto-supervisionadas totalmente recorrentes para aprendizado e planejamento de reforço dinâmico em ambientes não estacionários.» TR FKI-126-90, TUM. (Este relatório também introduziu curiosidade artificial e motivação intrínseca por meio de redes adversárias generativas.)
23,53K