قبل ثلاثة أيام تركت برنامج AutoResearch Tuning Nanochat لمدة ~2 يوم على نموذج depth=12. وجد ~20 تغييرا حسنا من فقدان التحقق. اختبرت هذه التغييرات أمس وجميعها كانت مضافة وانتقلت إلى نماذج أكبر (عمق = 24). بجمع كل هذه التغييرات، قمت اليوم بقياس أن "الوقت إلى GPT-2" في لوحة المتصدرين انخفض من 2.02 ساعة إلى 1.80 ساعة (~11٪ تحسن)، وسيكون هذا هو إدخال لوحة المتصدرين الجديد. لذا نعم، هذه تحسينات حقيقية وتحدث فرقا حقيقيا. أنا مندهش قليلا من أن محاولتي الساذجة الأولى نجحت بهذا الشكل فوق ما اعتقدت أنه مشروع مضبوطا يدويا إلى حد ما. هذه أول مرة لي لأنني معتاد جدا على القيام بالتحسين التكراري لتدريب الشبكات العصبية يدويا. تطرح أفكارا، تنفذها، تتحقق مما إذا كانت تعمل (فقدان التحقق أفضل)، تبتكر أفكارا جديدة بناء على ذلك، تقرأ بعض الأوراق البحثية للإلهام، وهكذا. هذا هو جوهر ما أفعله يوميا لمدة عقدين. رؤية الوكيل يقوم بسير العمل بالكامل من البداية إلى النهاية وبمفرده أثناء عمله على حوالي 700 تغيير بشكل تلقائي أمر مذهل. لقد نظر فعليا إلى تسلسل نتائج التجارب واستخدمه لتخطيط التجارب القادمة. ليست بحثا جديدا أو ثوريا (حتى الآن)، لكن كل التعديلات "حقيقية"، لم أجدها يدويا من قبل، وهي تتراكم وحسنت nanochat فعليا. من بين الأمور الكبيرة مثل: - لاحظ خطأ في أن QKnorm بدون معلمات لم يكن يحتوي على مضاعف مقياس مرفق، لذا كان انتباهي مشتتا جدا. وجد العميل مضاعفات لتشحذه، مشيرة إلى أعمال مستقبلية. - وجد أن تضمينات القيمة تحب التنظيم ولم أطبق أي منها (عفوا). - وجد أن انتباهي المخطط كان محافظا جدا (نسيت ضبطه). - وجدت أن بيتا AdamW كانوا كلهم في حالة اضطراب. - ضبطت جدول فقدان الوزن. - قام بضبط تهيئة الشبكة. هذا بالإضافة إلى كل الضبط الذي قمت به بالفعل على مدى فترة طويلة. الالتزام الدقيق هنا، من هذه "الجولة الأولى" من البحث التلقائي. سأبدأ "الجولة الثانية"، وبالتوازي أنظر في كيفية تعاون عدة وكلاء لفتح التوازي. جميع مختبرات LLM Frontier تقوم بذلك. إنها معركة الزعيم النهائية. بالطبع الأمر أكثر تعقيدا على نطاق واسع - ليس لديك قطار واحد فقط. ملف py ليتم ضبطه. لكن القيام بذلك هو "مجرد هندسة" وسينجح. تقوم بإنشاء سرب من العملاء، وتجعلهم يتعاونون لضبط نماذج أصغر، وتروج لأكثر الأفكار الواعدة على مقاييس أكبر بشكل متزايد، ويساهم البشر (اختياريا) على الأطراف. وبشكل عام، *أي مقياس* تهتم به ويكون فعالا إلى حد معقول في التقييم (أو لديه مقاييس بديلة أكثر كفاءة مثل تدريب شبكة أصغر) يمكن أن يتم البحث عنه تلقائيا بواسطة سرب وكلاء. من المفيد التفكير فيما إذا كانت مشكلتك تندرج تحت هذا الجانب أيضا.