إليك بعض ألفا المجانية: إذا قمنا بعمل RL لفترة طويلة بعد التدريب المسبق ، فسنقوم بالتأكيد بالكتابة فوق المعلمات ونبدأ في نسيان الأشياء في ورقة instructGPT الأصلية ، قام أفضل نموذج لديهم بخلط RLHF مع تدرجات التدريب المسبق لتجنب مشكلة الانجراف في النموذج بالضبط ومع ذلك ، لم يعد أحد يفعل هذا بعد الآن. بالتأكيد ، إنها تجسيد معين (خلط متدرج) لفكرة أوسع (تجنب النسيان) ولكن يبدو وكأنه خط تفكير تم التغاضي عنه كثيرا بينما نقوم بالمزيد والمزيد من خطوات RL على سبيل المثال ، انظر ورقة ProRL الأخيرة. إنهم يقومون بأكثر من 1000 خطوة من GRPO الآن بمعدل تعلم غير تافه ولا توجد عقوبة على الانحراف عن النموذج الأصلي. من المؤكد أن الدوائر المبنية داخل النموذج أثناء التدريب المسبق بدأت في الاضمحلال. وإذا لم يكن الأمر كذلك ، فسوف يفعلون ذلك بعد خطوات 10 آلاف أو 100 ألف RL أظن أن هذه الفكرة ستعود في النهاية. ربما يفعلون ذلك بالفعل في المختبرات الكبيرة
‏‎54.8‏K