1 dekade yang lalu: Insinyur Prompt Pembelajaran Penguatan di Bagian 5.3 dari «Belajar Berpikir ...» [2]. Rantai Pemikiran Adaptif! Jaring RL belajar menanyakan jaring lain untuk penalaran abstrak & pengambilan keputusan. Melampaui Model Dunia 1990 untuk perencanaan milidetik demi milidetik [1]. [2] J. Schmidhuber (JS, 2015). «Tentang Belajar Berpikir: Teori Informasi Algoritmik untuk Kombinasi Baru Pengontrol RL dan Model Dunia Saraf Berulang.» ArXiv 1210.0118 [1] JS (1990). "Membuat dunia dapat dibedakan: Tentang menggunakan jaringan saraf yang diawasi sendiri sepenuhnya berulang untuk pembelajaran dan perencanaan penguatan dinamis di lingkungan non-stasioner." TR FKI-126-90, TUM. (Laporan ini juga memperkenalkan keingintahuan buatan dan motivasi intrinsik melalui jaringan permusuhan generatif.)
23,46K