Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Rekan Peneliti @oiioxford
Postdoc sebelumnya @IPZ_ch, @Kennedy_School, @PrincetonSPIA, @IULuddy
Ilmu Sosial Komputasi, AI untuk Sains
Bisakah agen pengkodean AI mereproduksi temuan ilmu sosial yang diterbitkan?
Dalam pekerjaan baru dengan @_mohsen_m, Fabrizio Gilardi, dan @j_a_tucker, kami memperkenalkan SocSci-Repro-Bench — tolok ukur dari 221 tugas reproduktifitas dari 54 makalah — dan mengevaluasi dua agen pengkodean perbatasan: Claude Code dan Codex.
Hasilnya mengungkapkan kemampuan luar biasa dan risiko baru untuk sains yang dibantu AI.
------------------------------------
TUJUAN
--------
Tujuan desain utama adalah memisahkan dua masalah berbeda:
1️⃣ Apakah bahan replikasi itu sendiri dapat direproduksi?
2️⃣ Bisakah agen AI mereproduksi hasil ketika materi dapat dieksekusi?
Untuk mengisolasi performa agen, kami hanya menyertakan tugas yang outputnya identik di tiga eksekusi manual independen.
------------------------------------
DESAIN
--------
Agen menerima:
• data + kode anonim
• lingkungan eksekusi kotak pasir
Mereka harus secara mandiri:
• menginstal dependensi
• men-debug kode rusak
• Eksekusi alur
• Ekstrak hasil yang diminta
Singkatnya: reproduksi komputasi end-to-end.
------------------------------------
HASIL
--------
Kedua agen mereproduksi sebagian besar temuan yang diterbitkan.
Tetapi Claude Code secara substansial mengungguli Codex.
Akurasi tingkat tugas
• Kode Claude: 93.4%
• Codex: 62,1%
Reproduksi tingkat kertas (semua tugas benar)
• Kode Claude: 78.0%
• Codex: 35,8%
------------------------------------
MENGAPA CENJANGAN?
--------
Paket replikasi sering kali berisi masalah:
• Dependensi yang hilang
• Jalur file hard-code
• spesifikasi lingkungan yang tidak lengkap
Claude Code sering memperbaiki masalah ini secara mandiri. Codex sering gagal memulihkan alur eksekusi.
------------------------------------
APAKAH INI HANYA HAFALAN?
--------
Kami mengujinya dengan meminta agen untuk menyimpulkan metadata kertas (judul, penulis, jurnal, tahun) dari materi replikasi anonim. Tingkat pemulihan sangat rendah, menunjukkan bahwa agen terutama mengandalkan eksekusi kode, bukan menghafal makalah.
------------------------------------
TES PENALARAN
--------
Kami juga menguji tugas yang lebih sulit:
Dapatkah agen menyimpulkan pertanyaan penelitian dari sebuah penelitian dari kode dan data saja?
Kedua agen tersebut tampil sangat baik.
------------------------------------
BIAS KONFIRMASI
--------
Ketika agen diberi PDF kertas, masalah baru muncul. Terkadang mereka menyalin hasil yang dilaporkan dari teks alih-alih mengeksekusi kode.
Akurasi pada tugas yang tidak dapat direproduksi turun tajam.
Konteks membantu eksekusi — tetapi mengurangi independensi verifikasi.
------------------------------------
PENSYPUAN
--------
Terinspirasi oleh @ahall_research, kami menguji agen pembingkaian prompt musuh untuk:
"Jelajahi analisis alternatif yang selaras dengan hasil makalah yang dilaporkan."
Akurasi meningkat.
Tetapi agen juga menjadi lebih mungkin untuk mengarang hasil ketika reproduksi tidak mungkin.
------------------------------------
PARADOKS
--------
Tekanan untuk menghasilkan jawaban dapat membantu agen memperbaiki pipa eksekusi.
Tetapi secara bersamaan mengikis kemampuan mereka untuk mengatakan:
"Hasil ini tidak dapat direproduksi."
Mengenali kapan reproduksi tidak mungkin menjadi kemampuan ilmiah yang paling penting.
------------------------------------
CATATAN
--------
• Ini adalah pekerjaan yang sedang berlangsung — umpan balik dipersilakan.
• Tolok ukur tersedia di GitHub.
• Materi replikasi yang dihosting di Dataverse.
Kertas + repositori dalam balasan di bawah ini.

258
Teratas
Peringkat
Favorit
