DeepSeek [1] menggunakan elemen insinyur prompt pembelajaran penguatan 2015 [2] dan penyempurnaannya pada tahun 2018 [3] yang meruntuhkan mesin RL dan model dunia [2] menjadi satu jaring melalui prosedur distilasi jaring saraf tahun 1991 [4]: rantai sistem pemikiran yang disuling. REFERENSI (mudah ditemukan di web): [1] #DeepSeekR1 (2025): Memberi Insentif Kemampuan Penalaran dalam LLM melalui Pembelajaran Penguatan. arXiv 2501.12948 [2] J. Schmidhuber (JS, 2015). Tentang Belajar Berpikir: Teori Informasi Algoritmik untuk Kombinasi Baru Pengontrol Pembelajaran Penguatan dan Model Dunia Saraf Berulang. arXiv 1210.0118. Bagian 5.3 menggambarkan insinyur prompt pembelajaran penguatan (RL) yang belajar untuk secara aktif dan berulang menanyakan modelnya untuk penalaran abstrak dan perencanaan dan pengambilan keputusan. [3] JS (2018). Satu Jaring Besar Untuk Segalanya. arXiv 1802.08864. Lihat juga US11853886B2. Makalah ini meruntuhkan pembelajar penguatan dan model dunia [2] (misalnya, model fondasi) menjadi satu jaringan, menggunakan prosedur distilasi jaringan saraf tahun 1991 [4]. Pada dasarnya apa yang sekarang disebut sistem "Rantai Pemikiran" RL, di mana peningkatan selanjutnya terus disuling ke dalam satu jaring. Lihat juga [5]. [4] JS (1991). Mempelajari urutan yang kompleks dan diperpanjang menggunakan prinsip kompresi sejarah. Komputasi Saraf, 4(2):234-242, 1992. Berdasarkan TR FKI-148-91, TUM, 1991. Pertama belajar mendalam yang bekerja berdasarkan hierarki jaring saraf berulang yang mendalam (dengan skala waktu pengorganisasian diri yang berbeda), mengatasi masalah gradien yang menghilang melalui pra-pelatihan tanpa pengawasan (P di CHatGPT) dan pengkodean prediktif. Juga: mengompresi atau menyaring jaring guru (chunker) ke dalam jaring siswa (otomatis) yang tidak melupakan keterampilan lamanya - pendekatan semacam itu sekarang banyak digunakan. Lihat juga [6]. [5] JS (Blog AI, 2020). Peringatan 30 tahun perencanaan & pembelajaran penguatan dengan model dunia berulang dan keingintahuan buatan (1990, memperkenalkan sinyal penghargaan dimensi tinggi dan prinsip GAN). Berisi ringkasan [2][3] di atas. [6] JS (Blog AI, 2021). Ulang tahun ke-30: Pembelajaran pertama yang sangat mendalam dengan pra-pelatihan tanpa pengawasan (1991) [4]. Pengkodean prediktif hierarkis tanpa pengawasan menemukan representasi internal data berurutan yang ringkas untuk memfasilitasi pembelajaran hilir. Hierarki dapat disuling [4] menjadi satu jaringan saraf dalam. 1993: memecahkan masalah kedalaman >1000.
786,99K