SWE-bench Verified is de gouden standaard voor het evalueren van coderingsagenten: 500 echte wereldproblemen + tests van OpenAI. Klinkt waterdicht? Niet helemaal. We tonen aan dat het slagen voor de eenheidstests != overeenkomen met de grondwaarheid. In ons ACL-papier hebben we foutieve evaluaties gecorrigeerd: 24% van de agenten steeg of daalde op de ranglijst! 1/7
Voorbeeld: django PR-13933. De agent heeft een foutmelding verholpen, maar heeft stilletjes de normale uitvoering verbroken. Alle tests zijn groen, terwijl de patch in productie zou crashen. 3/7
Om de onvoldoende testgevallen in SWE-bench aan te pakken, hebben we UTBoost ontwikkeld, een LLM-gebaseerde testgevalgenerator voor grootschalige Python-projecten. Onder de motorkap lokaliseert UTBoost eerst relevante code op een fijnmazige manier (bestandsniveau -> functieniveau -> regelniveau) en genereert vervolgens automatisch pytest-stijl tests. 4/7
Gegeven de gegenereerde testgevallen hebben we hun correctheid geverifieerd en de agents opnieuw geëvalueerd op de huidige ranglijsten van SWE-bench Lite en Verified: - SWE-bench Lite: +28,4% meer foute patches gevangen - SWE-bench Verified: +15,7% - Rangen veranderd 40,9% (Lite) & 24,4% (Verified) 5/7
Les: Testen is moeilijk en nog moeilijker wanneer AI de code schrijft. Benchmarks moeten evolueren met sterkere, steeds groeiende suites. We hopen dat UTBoost een stap is naar betrouwbaardere evaluaties. 6/7
Dit is gezamenlijk werk met @BoshCavendish, @maxYuxuanZhu, en @PinjiaHE 7/7
24,89K