SWE-bench Verified هو المعيار الذهبي لتقييم وكلاء الترميز: 500 مشكلة في العالم الحقيقي + اختبارات بواسطة OpenAI. يبدو مضادا للرصاص؟ ليس تمامًا. نظهر اجتياز اختبارات الوحدة != مطابقة الحقيقة الأرضية. في ورقة ACL الخاصة بنا ، قمنا بإصلاح إيفالات عربات التي تجرها الدواب: تحرك 24٪ من الوكلاء لأعلى أو لأسفل لوحة المتصدرين! 1/7
مثال: django PR-13933. قام العامل بإصلاح رسالة خطأ ولكنه كسر التنفيذ العادي بصمت. جميع الاختبارات خضراء ، في حين أن التصحيح سيتعطل في الإنتاج. 3/7
لمعالجة حالات الاختبار غير الكافية في SWE-bench ، قمنا بتطوير UTBoost ، وهو منشئ حالة اختبار قائم على LLM لمشاريع Python واسعة النطاق. تحت الغطاء ، يقوم UTboost أولا بترجمة التعليمات البرمجية ذات الصلة بطريقة دقيقة (مستوى الملف -> مستوى الوظيفة -> مستوى السطر) ، ثم يقوم تلقائيا بإنشاء اختبارات نمط pytest. 4/7
بالنظر إلى حالات الاختبار التي تم إنشاؤها ، تحققنا من صحتها وأعدنا تقييم الوكلاء في لوحات المتصدرين الحالية ل SWE-bench Lite وتم التحقق منها: - SWE-bench Lite: + 28.4٪ أكثر من البقع الخاطئة التي تم اكتشافها - تم التحقق من مقاعد البدلاء السويدية: + 15.7٪ - تم تغيير التصنيفات بنسبة 40.9٪ (Lite) و 24.4٪ (تم التحقق منه) 5/7
الدرس: يكون الاختبار صعبا وأصعب عندما يكتب الذكاء الاصطناعي الكود. يجب أن تتطور المعايير مع أجنحة أقوى ومتنامية باستمرار. نأمل أن يكون UTBoost خطوة واحدة نحو إيفال أكثر موثوقية. 6/7
هذا عمل مشترك مع @BoshCavendish و @maxYuxuanZhu و @PinjiaHE 7/7
‏‎24.88‏K