SWE-bench Verified — это золотой стандарт для оценки кодирующих агентов: 500 реальных задач + тесты от OpenAI. Звучит надежно? Не совсем. Мы показываем, что прохождение его юнит-тестов != соответствие реальности. В нашей статье ACL мы исправили ошибочные оценки: 24% агентов поднялись или опустились в таблице лидеров! 1/7
Пример: django PR-13933. Агент исправил сообщение об ошибке, но тихо сломал нормальное выполнение. Все тесты проходят, в то время как патч приведет к сбою в производственной среде. 3/7
Чтобы решить проблему недостаточного количества тестовых случаев в SWE-bench, мы разработали UTBoost, генератор тестовых случаев на основе LLM для полнофункциональных проектов на Python. Внутри UTBoost сначала локализует соответствующий код на детальном уровне (уровень файла -> уровень функции -> уровень строки), а затем автоматически генерирует тесты в стиле pytest. 4/7
Учитывая сгенерированные тестовые случаи, мы проверили их правильность и переоценили агентов на текущих таблицах лидеров SWE-bench Lite и Verified: - SWE-bench Lite: на 28.4% больше неправильных патчей поймано - SWE-bench Verified: на 15.7% - Ранги изменились на 40.9% (Lite) и 24.4% (Verified) 5/7
Урок: Тестирование сложно, а еще сложнее, когда код пишет ИИ. Бенчмарки должны развиваться с более мощными, постоянно растущими наборами. Мы надеемся, что UTBoost — это шаг к более надежным оценкам. 6/7
Это совместная работа с @BoshCavendish, @maxYuxuanZhu и @PinjiaHE 7/7
24,88K