SWE-bench Verified to złoty standard oceny agentów kodujących: 500 rzeczywistych problemów + testy od OpenAI. Brzmi niezawodnie? Nie do końca. Pokazujemy, że przejście testów jednostkowych != dopasowanie do prawdy. W naszym artykule ACL naprawiliśmy błędne oceny: 24% agentów przesunęło się w górę lub w dół na liście rankingowej! 1/7
Przykład: django PR-13933. Agent naprawił komunikat o błędzie, ale cicho zepsuł normalne wykonanie. Wszystkie testy są zielone, podczas gdy poprawka spowodowałaby awarię w produkcji. 3/7
Aby rozwiązać problem niewystarczającej liczby przypadków testowych w SWE-bench, opracowaliśmy UTBoost, generator przypadków testowych oparty na LLM dla pełnoskalowych projektów w Pythonie. W tle UTBoost najpierw lokalizuje odpowiedni kod w sposób szczegółowy (poziom pliku -> poziom funkcji -> poziom linii), a następnie automatycznie generuje testy w stylu pytest. 4/7
Biorąc pod uwagę wygenerowane przypadki testowe, zweryfikowaliśmy ich poprawność i ponownie oceniliśmy agentów na aktualnych rankingach SWE-bench Lite i Verified: - SWE-bench Lite: +28,4% więcej złych poprawek wykrytych - SWE-bench Verified: +15,7% - Zmiany w rankingach 40,9% (Lite) i 24,4% (Verified) 5/7
Lekcja: Testowanie jest trudne, a jeszcze trudniejsze, gdy kod pisze AI. Benchmarki muszą ewoluować wraz z coraz silniejszymi, rosnącymi zestawami. Mamy nadzieję, że UTBoost to krok w stronę bardziej wiarygodnych ocen. 6/7
To jest wspólna praca z @BoshCavendish, @maxYuxuanZhu i @PinjiaHE 7/7
24,86K