10年前:「Learning to Think...」のセクション5.3の強化学習プロンプトエンジニア[2].適応的な思考の連鎖!RLネットは、抽象的な推論と意思決定のために別のネットをクエリすることを学習します。1990年のワールドモデルを超えて、ミリ秒単位の計画[1]。 [2] J.シュミットフーバー(JS、2015年)。«考える学習について:RLコントローラーとリカレントニューラルワールドモデルの新しい組み合わせのためのアルゴリズム情報理論。ArXivの1210.0118 [1] JS(1990)。「世界を微分可能にする:非定常環境での動的強化学習と計画のための完全再帰型自己教師ありニューラルネットワークの使用について」TR FKI-126-90、タム。(このレポートでは、敵対的生成ネットワークによる人工的な好奇心と内発的動機付けも紹介されました。
23.47K