يستخدم DeepSeek [1] عناصر من مهندس سريع التعلم المعزز لعام 2015 [2] وتحسينه لعام 2018 [3] الذي ينهار آلة RL والنموذج العالمي ل [2] في شبكة واحدة من خلال إجراء تقطير الشبكة العصبية لعام 1991 [4]: سلسلة مقطرة من نظام الفكر. المراجع (يسهل العثور عليها على الويب): [1] #DeepSeekR1 (2025): تحفيز القدرة على التفكير في LLMs من خلال التعلم المعزز. arXiv 2501.12948 [2] ج. شميدهوبر (شبيبة ، 2015). حول تعلم التفكير: نظرية المعلومات الخوارزمية لمجموعات جديدة من وحدات التحكم في التعلم المعزز ونماذج العالم العصبي المتكررة. arXiv 1210.0118. يصف القسم 5.3 المهندس الفوري للتعلم المعزز (RL) الذي يتعلم الاستعلام بنشاط وتكرار عن نموذجه للتفكير المجرد والتخطيط واتخاذ القرار. [3] شبيبة (2018). شبكة واحدة كبيرة لكل شيء. arXiv 1802.08864. انظر أيضا US11853886B2. تقوم هذه الورقة بطي المتعلم المعزز والنموذج العالمي ل [2] (على سبيل المثال ، نموذج الأساس) في شبكة واحدة ، باستخدام إجراء تقطير الشبكة العصبية لعام 1991 [4]. بشكل أساسي ما يسمى الآن نظام "سلسلة الفكر" RL ، حيث يتم تقطير التحسينات اللاحقة باستمرار في شبكة واحدة. انظر أيضا [5]. [4] شبيبة (1991). تعلم التسلسلات المعقدة والممتدة باستخدام مبدأ ضغط التاريخ. الحساب العصبي ، 4 (2): 234-242 ، 1992. استنادا إلى TR FKI-148-91 ، TUM ، 1991. أول متعلم عميق يعمل على أساس التسلسل الهرمي للشبكة العصبية المتكررة العميقة (بمقاييس زمنية مختلفة ذاتية التنظيم) ، والتغلب على مشكلة التدرج المتلاشي من خلال التدريب المسبق غير الخاضع للإشراف (P في CHatGPT) والترميز التنبؤي. أيضا: ضغط أو تقطير شبكة المعلم (القطعة) في شبكة الطالب (الأتمتة) التي لا تنسى مهاراتها القديمة - تستخدم هذه الأساليب الآن على نطاق واسع. انظر أيضا [6]. [5] شبيبة (مدونة الذكاء الاصطناعي ، 2020). الذكرى السنوية ال 30 للتخطيط والتعلم المعزز مع النماذج العالمية المتكررة والفضول المصطنع (1990 ، إدخال إشارات مكافأة عالية الأبعاد ومبدأ GAN). يحتوي على ملخصات [2] [3] أعلاه. [6] شبيبة (مدونة الذكاء الاصطناعي ، 2021). الذكرى السنوية ال 30: أول تعلم عميق للغاية مع تدريب مسبق غير خاضع للإشراف (1991) [4]. يجد الترميز التنبؤي الهرمي غير الخاضع للإشراف تمثيلات داخلية مدمجة للبيانات المتسلسلة لتسهيل التعلم النهائي. يمكن تقطير التسلسل الهرمي [4] في شبكة عصبية عميقة واحدة. 1993: حل مشاكل العمق >1000.
‏‎787‏K