🚨BREAKING: Alibaba menguji agen pengkodean AI pada 100 basis kode nyata, masing-masing mencakup 233 hari. Para agen gagal secara spektakuler. Ternyata lulus tes sekali itu mudah. mempertahankan kode selama 8 bulan tanpa merusak semuanya adalah tempat AI runtuh. SWE-CI adalah tolok ukur pertama yang mengukur pemeliharaan kode jangka panjang alih-alih perbaikan bug satu kali. Setiap tugas melacak 71 komitmen berturut-turut dari evolusi nyata. 75% model AI merusak kode yang berfungsi sebelumnya selama pemeliharaan. hanya Claude Opus 4 yang tetap di atas tingkat regresi nol 50%. setiap model lain mengakumulasi hutang teknis yang bertambah selama iterasi. Inilah bagian brutalnya: - HumanEval dan SWE-bench measure "apakah itu berhasil sekarang" - SWE-CI mengukur "apakah masih berfungsi setelah 6 bulan perubahan" Agen yang dioptimalkan untuk pengujian rekam jepret menulis kode rapuh yang lulus pengujian hari ini tetapi menjadi tidak dapat dipelihara besok. Alibaba membangun EvoScore untuk menimbang iterasi selanjutnya lebih berat daripada yang awal. Agen yang mengorbankan kualitas kode untuk kemenangan cepat akan dihukum ketika konsekuensinya bertambah. narasi pengkodean AI menjadi lebih jujur: sebagian besar model dapat menulis kode. hampir tidak ada yang bisa mempertahankannya.