SWE-bench Verified är guldstandarden för att utvärdera kodningsagenter: 500 verkliga problem + tester av OpenAI. Låter det skottsäkert? Närapå. Vi visar att klara dess enhetstester != matchande grundsanning. I vårt ACL-dokument har vi fixat buggy-evals: 24 % av agenterna flyttades upp eller ner på topplistan! 1/7
Exempel: django PR-13933. Agenten åtgärdade ett felmeddelande men bröt tyst den normala körningen. Alla tester är gröna, medan patchen skulle krascha i produktionen. 3/7
För att komma till rätta med de otillräckliga testfallen i SWE-bench utvecklade vi UTBoost, en LLM-baserad testfallsgenerator för fullskaliga Python-projekt. Under huven lokaliserar UTboost först relevant kod på ett finkornigt sätt (filnivå -> funktionsnivå -> radnivå) och genererar sedan automatiskt tester i pytest-stil. 4/7
Med tanke på de genererade testfallen verifierade vi deras riktighet och omvärderade agenterna på de nuvarande topplistorna för SWE-bench Lite och verifierade: - SWE-bench Lite: +28,4% fler felfläckar fångade - Verifierad av SWE-bänk: +15,7 % - Rankningen ändrades 40,9 % (Lite) och 24,4 % (Verifierad) 5/7
Lärdom: Testning är svårt och ännu svårare när AI skriver koden. Riktmärken måste utvecklas med starkare, ständigt växande sviter. Vi hoppas att UTBoost är ett steg mot mer tillförlitliga utvärderingar. 6/7
Detta är ett gemensamt arbete med @BoshCavendish, @maxYuxuanZhu och @PinjiaHE 7/7
24,91K