Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Tutkimusassistentti @oiioxford
Edellinen postdoc @IPZ_ch, @Kennedy_School, @PrincetonSPIA, @IULuddy
Laskennallinen yhteiskuntatiede, tekoäly tieteeseen
Voivatko tekoälykoodaajat toistaa julkaistuja yhteiskuntatieteellisiä havaintoja?
Uudessa työssä @_mohsen_m:n, Fabrizio Gilardin ja @j_a_tucker:n kanssa esittelemme SocSci-Repro-Benchin — 221 toistettavuustehtävän vertailun 54 artikkelista — ja arvioimme kahta rajakoodausagenttia: Claude Codea ja Codexia.
Tulokset paljastavat sekä merkittäviä kykyjä että uusia riskejä tekoälyavusteisessa tieteessä.
------------------------------------
TAVOITE
--------
Keskeinen suunnittelutavoite oli erottaa kaksi erilaista ongelmaa:
1️⃣ Ovatko replikaatiomateriaalit itsessään toistettavissa?
2️⃣ Voivatko tekoälyagentit toistaa tuloksia, kun materiaalit ovat suoritettavissa?
Agentin suorituskyvyn eristämiseksi sisällytimme vain tehtävät, joiden tulokset olivat identtiset kolmessa itsenäisessä manuaalisessa suorituksessa.
------------------------------------
SUUNNITTELU
--------
Saaneet agentit:
• anonymisoitu data + koodi
• hiekkalaatikko-suoritusympäristö
Heidän täytyi tehdä itsenäisesti:
• asenna riippuvuuksia
• virheenkorjaus rikkinäisen koodin kanssa
• suorittaa putki
• poimia pyydetyt tulokset
Lyhyesti: kokonaisvaltainen laskennallinen toisto.
------------------------------------
TULOKSET
--------
Molemmat agentit toistivat suuren osan julkaistuista löydöksistä.
Mutta Claude Code suoriutui selvästi paremmin kuin Codex.
Tehtävätason tarkkuus
• Claude Code: 93,4 %
• Codex: 62,1 %
Paperitason jäljentäminen (kaikki tehtävät oikein)
• Claude-koodi: 78,0 %
• Codex: 35,8 %
------------------------------------
MIKSI VÄLI?
--------
Replikaatiopaketit sisältävät usein ongelmia:
• puuttuvat riippuvuudet
• kovakoodatut tiedostopolut
• puutteelliset ympäristömäärittelyt
Claude Code korjasi nämä ongelmat usein itsenäisesti. Codex epäonnistui usein suoritusputken palauttamisessa.
------------------------------------
ONKO TÄMÄ VAIN ULKOA OPETTELUA?
--------
Testasimme tätä pyytämällä agentteja päättelemään artikkelin metatietoja (otsikko, kirjoittajat, lehti, vuosi) anonymisoiduista replikaatiomateriaaleista. Palautusprosentit olivat hyvin alhaiset, mikä viittaa siihen, että agentit luottivat pääasiassa koodin suorittamiseen, eivät papereiden ulkoa opetteluun.
------------------------------------
PÄÄTTELYTESTI
--------
Testasimme myös vaikeamman tehtävän:
Voivatko agentit päätellä tutkimuksen tutkimuksen kysymyksen pelkän koodin ja datan perusteella?
Molemmat agentit suoriutuivat yllättävän hyvin.
------------------------------------
VAHVISTUSHARHA
--------
Kun agenteille annettiin paperi-PDF, ilmeni uusi ongelma. Joskus he kopioivat raportoituja tuloksia tekstistä sen sijaan, että olisivat suorittaneet koodin.
Tarkkuus ei-toistettavissa tehtävissä laski jyrkästi.
Konteksti auttaa toteutuksessa — mutta vähentää verifioinnin riippumattomuutta.
------------------------------------
MIELISTELYÄ
--------
@ahall_research innoittamana testasimme vastakkainasettelun kehystämistä, ohjaten agentteja seuraamaan:
"Tutki vaihtoehtoisia analyysejä, jotka vastaavat artikkelin raportoituja tuloksia."
Tarkkuus parantui.
Mutta agentit alkoivat myös todennäköisemmin valmistaa tuloksia silloin, kun lisääntyminen oli mahdotonta.
------------------------------------
PARADOKSI
--------
Paine tuottaa vastaus voi auttaa agentteja korjaamaan suoritusputkia.
Mutta se samalla heikentää heidän kykyään sanoa:
"Tätä tulosta ei voida toistaa."
Lisääntymisen mahdottomuuden tunnistaminen voi olla tärkein tieteellinen kyky.
------------------------------------
HUOMAUTUKSIA
--------
• Tämä on keskeneräistä työtä — palaute on tervetullutta.
• Benchmark saatavilla GitHubissa.
• Replikaatiomateriaalit, jotka on isännöity Dataverseen.
Artikkeli + tietovarasto vastauksessa alla.

259
Johtavat
Rankkaus
Suosikit
