1 década atrás: Engenheiro de Prompt de Aprendizagem por Reforço na Sec. 5.3 de «Learning to Think …» [2]. Cadeia Adaptativa de Pensamento! Uma rede de RL aprende a consultar outra rede para raciocínio abstrato e tomada de decisão. Indo além do Modelo Mundial de 1990 para planejamento milissegundo a milissegundo [1].  [2] J. Schmidhuber (JS, 2015). «On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models.» ArXiv 1210.0118  [1] JS (1990). “Tornando o mundo diferenciável: Sobre o uso de redes neurais totalmente recorrentes auto-supervisionadas para aprendizagem por reforço dinâmica e planejamento em ambientes não estacionários.” TR FKI-126-90, TUM. (Este relatório também introduziu curiosidade artificial e motivação intrínseca através de redes adversariais generativas.)
23,51K