DeepSeek [1] používá prvky inženýra 2015 reinforcement learning prompt engineer [2] a jeho vylepšení z roku 2018 [3], který zhroutí RL stroj a model světa [2] do jediné sítě prostřednictvím procedury destilace neuronové sítě z roku 1991 [4]: destilovaného řetězce myšlenkového systému. REFERENCE (snadno dostupné na webu): [1] #DeepSeekR1 (2025): Motivace schopnosti uvažování v LLM prostřednictvím zpětnovazebního učení. arXiv 2501.12948 [2] J. Schmidhuber (JS, 2015). O učení se myslet: Algoritmická teorie informace pro nové kombinace ovladačů zpětnovazebního učení a modelů opakujícího se neuronového světa. arXiv 1210.0118. Oddíl 5.3 popisuje inženýra rychlého učení posilováním (RL), který se učí aktivně a iterativně dotazovat svého modelu pro abstraktní uvažování, plánování a rozhodování. [3] JS (2018). Jedna velká síť na všechno. arXiv 1802.08864. Viz také US11853886B2. Tento článek shrnuje zpětnovazební učení a model světa [2] (např. základní model) do jediné sítě pomocí postupu destilace neuronové sítě z roku 1991 [4]. V podstatě to, co se nyní nazývá RL "Chain of Thought" systém, kde jsou následná vylepšení neustále destilována do jediné sítě. Viz také [5]. [4] JS (1991). Učení složitých, rozšířených sekvencí pomocí principu komprese historie. Neuronové výpočty, 4(2):234-242, 1992. Založeno na TR FKI-148-91, TUM, 1991. První pracující hluboký učící se na základě hluboké opakující se hierarchie neuronových sítí (s různými samoorganizujícími se časovými škálami), překonávající problém mizejícího gradientu pomocí předběžného trénování bez učitele (P v CHatGPT) a prediktivního kódování. Také: komprese nebo destilace učitelské sítě (chunker) do studentské sítě (automatizer), která nezapomíná na své staré dovednosti - takové přístupy jsou nyní široce používány. Viz také [6]. [5] JS (AI Blog, 2020). 30. výročí plánování a zpětnovazebního učení s opakujícími se modely světa a umělou zvědavostí (1990, představení vysokodimenzionálních signálů odměny a principu GAN). Obsahuje shrnutí [2][3] výše. [6] JS (AI Blog, 2021). 30leté výročí: První velmi hluboké učení s předškolením bez učitele (1991) [4]. Hierarchické prediktivní kódování bez učitele nachází kompaktní interní reprezentace sekvenčních dat pro usnadnění následného učení. Hierarchii lze vydestilovat [4] do jediné hluboké neuronové sítě. 1993: Řešení úloh hloubky >1000.
786,98K