Il y a 1 décennie : Ingénieur en prompts d'apprentissage par renforcement dans la section 5.3 de « Learning to Think … » [2]. Chaîne de pensée adaptative ! Un réseau d'apprentissage par renforcement apprend à interroger un autre réseau pour le raisonnement abstrait et la prise de décision. Allant au-delà du modèle mondial de 1990 pour une planification milliseconde par milliseconde [1].  [2] J. Schmidhuber (JS, 2015). « On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models. » ArXiv 1210.0118  [1] JS (1990). “Making the world differentiable: On using fully recurrent self-supervised neural networks for dynamic reinforcement learning and planning in non-stationary environments.” TR FKI-126-90, TUM. (Ce rapport a également introduit la curiosité artificielle et la motivation intrinsèque à travers des réseaux antagonistes génératifs.)
23,52K