熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
1 十年前:在《學習思考……》第 5.3 節中的強化學習提示工程師 [2]。自適應思維鏈!一個強化學習網絡學會查詢另一個網絡以進行抽象推理和決策。超越 1990 年的世界模型,實現毫秒級的計劃 [1]。
[2] J. Schmidhuber (JS, 2015)。 《學習思考:用於 RL 控制器和遞歸神經世界模型的新穎組合的算法信息理論》。ArXiv 1210.0118
[1] JS (1990)。 “使世界可微分:在非平穩環境中使用完全遞歸自我監督神經網絡進行動態強化學習和規劃。” TR FKI-126-90,TUM。(這份報告還通過生成對抗網絡引入了人工好奇心和內在動機。)

23.46K
熱門
排行
收藏