トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
10年前:「Learning to Think...」のセクション5.3の強化学習プロンプトエンジニア[2].適応的な思考の連鎖!RLネットは、抽象的な推論と意思決定のために別のネットをクエリすることを学習します。1990年のワールドモデルを超えて、ミリ秒単位の計画[1]。
[2] J.シュミットフーバー(JS、2015年)。«考える学習について:RLコントローラーとリカレントニューラルワールドモデルの新しい組み合わせのためのアルゴリズム情報理論。ArXivの1210.0118
[1] JS(1990)。「世界を微分可能にする:非定常環境での動的強化学習と計画のための完全再帰型自己教師ありニューラルネットワークの使用について」TR FKI-126-90、タム。(このレポートでは、敵対的生成ネットワークによる人工的な好奇心と内発的動機付けも紹介されました。

23.47K
トップ
ランキング
お気に入り