Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek [1] använder delar av 2015 reinforcement learning prompt engineer [2] och dess förfining från 2018 [3] som kollapsar RL-maskinen och världsmodellen av [2] till ett enda nät genom neurala nätdestillationsproceduren från 1991 [4]: ett destillerat tankekedjesystem.
REFERENSER (lätt att hitta på webben):
[1] #DeepSeekR1 (2025): Stimulera resonemangsförmåga hos LLM:er via förstärkningsinlärning. arXiv 2501.12948
[2] J. Schmidhuber (JS, 2015). Om att lära sig att tänka: Algoritmisk informationsteori för nya kombinationer av Reinforcement Learning Controllers och återkommande neurala världsmodeller. arXiv 1210.0118. Avsnitt 5.3 beskriver promptingenjören för förstärkningsinlärning (RL) som lär sig att aktivt och iterativt fråga sin modell för abstrakt resonemang och planering och beslutsfattande.
[3] JS (2018). Ett stort nät för allt. arXiv 1802.08864. Se även US11853886B2. Den här artikeln kollapsar förstärkningsinlärningen och världsmodellen av [2] (t.ex. en grundmodell) till ett enda nätverk, med hjälp av neurala nätverksdestillationsproceduren från 1991 [4]. I huvudsak vad som nu kallas ett RL "Chain of Thought" -system, där efterföljande förbättringar kontinuerligt destilleras till ett enda nät. Se även [5].
[4] JS (1991). Inlärning av komplexa, utökade sekvenser med hjälp av principen om historiekomprimering. Neural Beräkning, 4(2):234-242, 1992. Baserat på TR FKI-148-91, TUM, 1991. Först arbetar man med djupinlärning baserat på en djup återkommande neural näthierarki (med olika självorganiserande tidsskalor), och övervinner problemet med försvinnande gradient genom oövervakad förträning (P:et i CHatGPT) och prediktiv kodning. Dessutom: komprimera eller destillera ett lärarnät (chunkern) till ett elevnät (automatiseraren) som inte glömmer sina gamla färdigheter - sådana metoder används nu i stor utsträckning. Se även [6].
[5] JS (AI-bloggen, 2020). 30-årsjubileum för planering och förstärkningsinlärning med återkommande världsmodeller och artificiell nyfikenhet (1990, introducerade högdimensionella belöningssignaler och GAN-principen). Innehåller sammanfattningar av [2][3] ovan.
[6] JS (AI-bloggen, 2021). 30-årsjubileum: Första mycket djupa inlärningen med oövervakad förutbildning (1991) [4]. Oövervakad hierarkisk prediktiv kodning hittar kompakta interna representationer av sekventiella data för att underlätta inlärning nedströms. Hierarkin kan destilleras [4] till ett enda djupt neuralt nätverk. 1993: Lösa djupproblem >1000.

787,05K
Topp
Rankning
Favoriter