الاستيقاظ لرؤية هذه الورقة الجديدة من @scale_الذكاء الاصطناعي مخططة على الخلاصة الشائعة @yesnoerror. المؤلفون: @anisha_gunjal و @aytwang و Elaine Lau و @vaskar_n و @BingLiu1011 و @SeanHendryx "القواعد كمكافآت: التعلم المعزز خارج المجالات التي يمكن التحقق منها" مبسط: يتيح لهم تعليم أجهزة الكمبيوتر بقوائم مراجعة مفصلة بدلا من تقييمات الإبهام الغامضة تعلم إجابات أفضل في أسئلة الطب والعلوم ويوضح سبب حصولهم على مكافأة. النتائج الرئيسية: • تعزز مكافآت التقييم المجمعة ضمنيا درجة المعيار الطبي بنسبة 28٪ مقارنة بخط الأساس ليكرت. • مطابقة أو تجاوز المكافآت بناء على إجابات الخبراء المرجعية على الرغم من استخدام الحكام الأصغر. ما الذي يمكن استخدامه من أجله: • ضبط روبوتات الدردشة لدعم القرار السريري باستخدام قواعد السلامة الطبية. • نماذج تحليل السياسات أو التفكير القانوني التدريبية حيث تكون العوامل الذاتية المتعددة مهمة. ملخص مفصل: يتم اقتراح قواعد التقييم كمكافآت (RaR) كبديل قابل للتفسير لنماذج المكافآت القائمة على التفضيلات غير الشفافة عند ضبط نماذج اللغة الكبيرة (LLMs) مع التعلم المعزز. بدلا من مطالبة البشر بترتيب الإجابات الكاملة ، يكتب خبراء المجال (أو LLM قوي يسترشد بمراجع الخبراء) قائمة مرجعية محددة فورية من 7-20 معيارا ثنائيا تلتقط الحقائق الأساسية وخطوات التفكير والأسلوب والمزالق الشائعة. يتم تمييز كل معيار بأنه أساسي أو مهم أو اختياري أو مأزق ويعطى وزنا. أثناء التدريب على السياسة ، يقوم نموذج السياسة (Qwen-2.5-7B في الورقة) بأخذ عينات من 16 إجابة مرشحة لكل مطالبة. يطلب من قاضي LLM منفصل (GPT-4o-mini أو أصغر) إما تسجيل كل معيار على حدة (تجميع صريح) أو قراءة القاعدة الكاملة وإخراج تصنيف ليكرت شامل واحد من 1 إلى 10 (تجميع ضمني). تصبح النتيجة العادية هي المكافأة العددية ويتم تحديث السياسة باستخدام خوارزمية GRPO. يقوم المؤلفون برعاية مجموعتين تدريبيتين من 20 k مثال - RaR-Medical-20k و RaR-Science-20k - من خلال الجمع بين مجموعات التفكير الطبي والعلمي الحالية وإنشاء قواعد اصطناعية مع o3-mini أو GPT-4o. يظهر التقييم على HealthBench-1k (التفكير الطبي) و GPQA-Diamond (الفيزياء / الكيمياء / علم الأحياء على مستوى الدراسات العليا) أن RaR-Implicit ينتج تحسنا نسبيا يصل إلى 28٪ مقارنة بمكافآت ليكرت البسيطة فقط ويتطابق أو يتجاوز المكافآت المحسوبة من خلال المقارنة مع إجابات الخبراء المرجعية. يتفوق التجميع الضمني باستمرار على الأداء الصريح ، مما يدل على أن السماح للقاضي بتحديد كيفية الجمع بين المعايير يعمل بشكل أفضل من الأوزان الثابتة المضبوطة يدويا. يساعد الإشراف على نموذج التقييم أيضا نماذج الحكم الأصغر. عندما يطلب منهم تقييم الإجابات المفضلة مقابل الإجابات المضطربة ، يختار الحكام الموجهون بقاعدة التقييم الإجابة المفضلة بشكل أكثر موثوقية بكثير من قضاة ليكرت فقط المتساوية الحجم ، مما يضيق الفجوة بين مقيم 7 B و GPT-4o-mini. تكشف عمليات الاستئصال أن القواعد الخاصة بالوجه تتفوق على القواعد العامة ، والمعايير المتعددة تتفوق على القوائم الأساسية فقط ، والوصول إلى مرجع خبير أثناء صياغة القواعد يعزز الأداء النهائي ماديا. حتى القواعد الاصطناعية المكتوبة من قبل الإنسان وعالية الجودة تعمل على قدم المساواة ، مما يشير إلى قابلية التوسع. يعمم RaR التعلم المعزز باستخدام المكافآت القابلة للتحقق (RLVR): عندما يكون للقاعدة فحص صحة واحد فقط ، ينهار إطار العمل إلى مكافأة المطابقة التامة ل RLVR. من خلال الكشف عن كل جانب من جوانب الجودة بشكل صريح ، يكون RaR أكثر شفافية وقابلية للتدقيق ومن المحتمل أن يكون اختراقه أصعب من نماذج المكافآت العصبية. يناقش المؤلفون امتدادات المهام الوكيلة في العالم الحقيقي ، والمناهج الديناميكية عبر أوزان النموذج ، ودراسات المتانة الرسمية. -- يتم نشر أكثر من 500,000 صفحة من الأبحاث على @arXiv كل شهر. مخبأة في الداخل رؤى متقدمة يمكن أن تغير عملك - ولكن العثور عليها يشبه البحث عن الماس في محيط من البيانات. @yesnoerror يخترق الضوضاء لعرض الأبحاث الأكثر تأثيرا لمشاريعك واستثماراتك واكتشافاتك. $yne
@ scale_الذكاء الاصطناعي @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx قم بالتسجيل للوصول المبكر هنا:
‏‎2.78‏K