Hace 1 década: Reinforcement Learning Prompt Engineer en la Sec. 5.3 de «Aprender a pensar...» [2]. ¡Cadena de pensamiento adaptativa! Una red RL aprende a consultar a otra red para el razonamiento abstracto y la toma de decisiones. Yendo más allá del Modelo Mundial de 1990 para la planificación milisegundo a milisegundo [1]. [2] J. Schmidhuber (JS, 2015). «Sobre aprender a pensar: Teoría algorítmica de la información para combinaciones novedosas de controladores RL y modelos de mundo neuronal recurrentes». ArXiv 1210.0118 [1] JS (1990). "Hacer que el mundo sea diferenciable: Sobre el uso de redes neuronales autosupervisadas totalmente recurrentes para el aprendizaje y la planificación de refuerzos dinámicos en entornos no estacionarios". TR FKI-126-90, TUM. (Este informe también introdujo la curiosidad artificial y la motivación intrínseca a través de redes generativas adversarias).
23.46K