خط أنابيب أنيق للغاية ، لتلخيصهم: 1. إعادة صياغة موجه المهمة المحدد من قبل المستخدم ، 2. إنشاء عدد قليل من أمثلة التدريب الاصطناعي المتنوعة (N = 25) (الاستفادة من ICL مع نافذة سياق كبيرة لضمان التنوع) ، 3. نموذج التدريب باستخدام GRPO + LoRA ، باستخدام قواعد RULER كمكافأة
Matt Shumer
Matt Shumer‏30 يوليو 2025
نقدم لكم "AutoRL" 📈 أبسط طريقة في العالم لتدريب ماجستير في القانون الخاص بالمهمة مع RL. * فقط اكتب جملة تصف النموذج الذي تريده. ستقوم سلسلة من أنظمة الذكاء الاصطناعي بإنشاء بيانات + قواعد تقييم وتدريب نموذج لك. مدعوم من ART ، إنه مفتوح المصدر. الرابط في الموضوع:
‏‎5.79‏K