Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-bench Verified adalah standar emas untuk mengevaluasi agen pengkodean: 500 masalah dunia nyata + pengujian oleh OpenAI. Kedengarannya antipeluru? Hampir.
Kami menunjukkan lulus uji satuannya != kebenaran dasar yang cocok. Dalam makalah ACL kami, kami memperbaiki eval buggy: 24% agen naik atau turun papan peringkat!
1/7

Contoh: django PR-13933. Agen memperbaiki pesan kesalahan tetapi diam-diam melanggar eksekusi normal. Semua tes berwarna hijau, sementara tambalan akan mogok dalam produksi.
3/7

Untuk mengatasi kasus pengujian yang tidak memadai di SWE-bench, kami mengembangkan UTBoost, generator kasus uji berbasis LLM untuk proyek Python skala penuh. Di bawah tenda, UTboost pertama-tama melokalkan kode yang relevan dengan cara yang halus (tingkat file -> tingkat fungsi -> tingkat baris), dan kemudian secara otomatis menghasilkan pengujian gaya pytest.
4/7
Mengingat kasus pengujian yang dihasilkan, kami memverifikasi kebenarannya dan mengevaluasi kembali agen di papan peringkat SWE-bench Lite dan Verified saat ini:
- SWE-bench Lite: +28,4% lebih banyak tambalan yang salah tertangkap
- SWE-bench Terverifikasi: +15.7%
- Peringkat berubah 40,9 % (Lite) & 24,4 % (Terverifikasi)
5/7
Pelajaran: Pengujian sulit dan bahkan lebih sulit saat AI menulis kode. Tolok ukur harus berkembang dengan suite yang lebih kuat dan terus berkembang. Kami berharap UTBoost adalah salah satu langkah menuju eval yang lebih andal.
6/7
Ini adalah kerja bersama dengan @BoshCavendish, @maxYuxuanZhu, dan @PinjiaHE
7/7
24,84K
Teratas
Peringkat
Favorit