熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
DeepSeek [1] 使用了 2015 年強化學習提示工程師 [2] 及其 2018 年改進 [3] 的元素,通過 1991 年的神經網络蒸餾程式 [4] 將 RL 機器和世界模型 [2] 摺疊成一個網络:一個提煉的思維鏈系統。
參考資料(在網上很容易找到):
[1] #DeepSeekR1 (2025):通過強化學習激勵 LLM 中的推理能力。arXiv 2501.12948
[2] J. Schmidhuber (JS, 2015)。關於學會思考:強化學習控制器和遞歸神經世界模型新組合的演演算法資訊論。arXiv 1210.0118。第 5.3 節描述了強化學習 (RL) 提示工程師,它學習主動和反覆運算查詢其模型以進行抽象推理、規劃和決策。
[3] JS (2018 年)。一張大網萬物。arXiv 1802.08864。另請參見 US11853886B2。本文使用 1991 年的神經網路蒸餾程式 [4] 將強化學習器和 [2] 的世界模型(例如,基礎模型)摺疊成一個網路。本質上是現在所謂的 RL“思維鏈”系統,其中後續改進不斷提煉成一個網路。另請參見 [5]。
[4] JS (1991 年)。使用歷史壓縮原理學習複雜的擴展序列。神經計算,4(2):234-242,1992 年。基於 TR FKI-148-91,TUM,1991 年。第一個基於深度遞迴神經網路層次結構(具有不同的自組織時間尺度)的深度學習器,通過無監督的預訓練(CHatGPT 中的 P)和預測編碼克服梯度消失問題。此外:將教師網(分塊器)壓縮或提煉成學生網(自動化器),它不會忘記其舊技能 - 這種方法現在被廣泛使用。另見 [6]。
[5] JS(AI 博客,2020 年)。使用迴圈世界模型和人工好奇心進行規劃和強化學習30周年(1990年,引入高維獎勵信號和GAN原則)。包含上述 [2][3] 的摘要。
[6] JS(人工智慧博客,2021 年)。30 周年紀念日:第一個使用無監督預訓練進行非常深度學習(1991 年)[4]。無監督分層預測編碼找到順序數據的緊湊內部表示,以促進下游學習。層次結構可以提煉 [4] 到單個深度神經網路中。1993年:解決深度 >1000 的問題。

786.99K
熱門
排行
收藏