Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-bench Verified är guldstandarden för att utvärdera kodningsagenter: 500 verkliga problem + tester av OpenAI. Låter det skottsäkert? Närapå.
Vi visar att klara dess enhetstester != matchande grundsanning. I vårt ACL-dokument har vi fixat buggy-evals: 24 % av agenterna flyttades upp eller ner på topplistan!
1/7

Exempel: django PR-13933. Agenten åtgärdade ett felmeddelande men bröt tyst den normala körningen. Alla tester är gröna, medan patchen skulle krascha i produktionen.
3/7

För att komma till rätta med de otillräckliga testfallen i SWE-bench utvecklade vi UTBoost, en LLM-baserad testfallsgenerator för fullskaliga Python-projekt. Under huven lokaliserar UTboost först relevant kod på ett finkornigt sätt (filnivå -> funktionsnivå -> radnivå) och genererar sedan automatiskt tester i pytest-stil.
4/7
Med tanke på de genererade testfallen verifierade vi deras riktighet och omvärderade agenterna på de nuvarande topplistorna för SWE-bench Lite och verifierade:
- SWE-bench Lite: +28,4% fler felfläckar fångade
- Verifierad av SWE-bänk: +15,7 %
- Rankningen ändrades 40,9 % (Lite) och 24,4 % (Verifierad)
5/7
Lärdom: Testning är svårt och ännu svårare när AI skriver koden. Riktmärken måste utvecklas med starkare, ständigt växande sviter. Vi hoppas att UTBoost är ett steg mot mer tillförlitliga utvärderingar.
6/7
Detta är ett gemensamt arbete med @BoshCavendish, @maxYuxuanZhu och @PinjiaHE
7/7
24,91K
Topp
Rankning
Favoriter