SWE-bench Verified – це золотий стандарт оцінки кодуючих агентів: 500 реальних проблем + тести від OpenAI. Звучить куленепробивно? Не зовсім. Ми показуємо проходження його одиничних тестів != відповідну правду. У нашому документі ACL ми виправили помилки: 24% агентів перемістилися вгору або вниз по таблиці лідерів! 1/7
Приклад: django PR-13933. Агент виправив повідомлення про помилку, але мовчки порушив нормальне виконання. Усі тести зеленого кольору, тоді як патч зазнає збою у виробництві. 3/7
Щоб вирішити проблему недостатньої кількості тест-кейсів у SWE-bench, ми розробили UTBoost — генератор тестових випадків на основі LLM для повномасштабних проєктів на Python. Під капотом UTboost спочатку локалізує відповідний код у тонкий спосіб (рівень файлу -> рівень функції -> рівень рядка), а потім автоматично генерує тести в стилі pytest. 4/7
З огляду на згенеровані тест-кейси, ми перевірили їх коректність і повторно оцінили агентів в поточних лідербордах SWE-bench Lite і Verified: - SWE-bench Lite: на +28,4% більше виявлено неправильних патчів - Підтверджено SWE-bench: +15.7% - Зміни в рейтингах: 40.9 % (Lite) & 24.4 % (Перевірено) 5/7
Урок: Тестування стає важким і навіть важчим, коли ШІ пише код. Орієнтири повинні розвиватися разом із сильнішими, постійно зростаючими наборами. Ми сподіваємося, що UTBoost стане одним із кроків до більш надійних евалів. 6/7
Це спільна робота з @BoshCavendish, @maxYuxuanZhu та @PinjiaHE 7/7
24,85K