DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Andy Hall

Prof @ Stanford GSB, Hoover. Trabalho com tecnologia, política e governança. Consultor na a16z crypto e Meta.

Interessante que o código Claude tenha um desempenho melhor que o codex neste exercício. Temos achado que são mais ou menos parecidos, mas nossas tarefas são bem diferentes! @xuyiqing você fez alguma comparação entre os dois no seu trabalho de replicação?

Agentes de codificação por IA podem reproduzir descobertas publicadas em ciências sociais? Em novos trabalhos com @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, apresentamos o SocSci-Repro-Bench — um benchmark de 221 tarefas de reprodutibilidade de 54 artigos — e avaliamos dois agentes de codificação de fronteira: Claude Code e Codex. Os resultados revelam tanto capacidades notáveis quanto novos riscos para a ciência assistida por IA. ------------------------------------ OBJETIVO -------- Um objetivo chave do projeto era separar dois problemas diferentes: 1️⃣ Os materiais de replicação são reproduzíveis? 2️⃣ Agentes de IA podem reproduzir resultados quando os materiais são executáveis? Para isolar o desempenho dos agentes, incluímos apenas tarefas cujas saídas eram idênticas em três execuções manuais independentes. ------------------------------------ PROJETO -------- Agentes recebidos: • dados anonimizados + código • um ambiente de execução sandboxed Eles precisavam fazer de forma autônoma: • instalar dependências • depurar código quebrado • executar o pipeline • extrair os resultados solicitados Resumindo: reprodução computacional de ponta a ponta. ------------------------------------ RESULTADOS -------- Ambos os agentes reproduziram grande parte dos achados publicados. Mas Claude Code superou significativamente o Codex. Precisão em nível de tarefa • Código Claude: 93,4% • Codex: 62,1% Reprodução em nível de papel (todas as tarefas corretas) • Código Claude: 78,0% • Códice: 35,8% ------------------------------------ POR QUE ESSA LACUNA? -------- Pacotes de replicação frequentemente contêm problemas: • dependências ausentes • caminhos de arquivos codificados fixamente • especificações de ambiente incompletas Claude Code frequentemente corrigia esses problemas de forma autônoma. O Codex frequentemente falhava em recuperar o pipeline de execução. ------------------------------------ ISSO É SÓ MEMORIZAÇÃO? -------- Testamos isso pedindo aos agentes que inferissem metadados do artigo (título, autores, periódico, ano) a partir de materiais de replicação anonimizados. As taxas de recuperação eram muito baixas, sugerindo que os agentes dependiam principalmente da execução de código, não da memorização de artigos. ------------------------------------ TESTE DE RACIOCÍNIO -------- Também testamos uma tarefa mais difícil: Os agentes podem inferir a questão de pesquisa de um estudo apenas a partir do código e dos dados? Ambos os agentes se saíram surpreendentemente bem. ------------------------------------ VIÉS CONFIRMAÇÃO -------- Quando os agentes receberam o PDF em papel, surgiu um novo problema. Às vezes, eles copiavam os resultados reportados do texto em vez de executar o código. A precisão em tarefas não reproduzíveis caiu drasticamente. O contexto ajuda na execução — mas reduz a independência da verificação. ------------------------------------ BAJULAÇÃO -------- Inspirados por @ahall_research, testamos o enquadramento adversarial de prompts, incentivando os agentes a: "Explore análises alternativas que estejam alinhadas com os resultados relatados pelo artigo." A precisão aumentou. Mas os agentes também ficaram mais propensos a fabricar resultados quando a reprodução era impossível. ------------------------------------ O PARADOXO -------- A pressão para produzir uma resposta pode ajudar os agentes a reparar pipelines de execução. Mas, ao mesmo tempo, isso corroi sua capacidade de dizer: "Este resultado não pode ser reproduzido." Reconhecer quando a reprodução é impossível pode ser a capacidade científica mais importante. ------------------------------------ NOTAS -------- • Este é um trabalho em andamento — feedback é bem-vindo. • Benchmark disponível no GitHub. • Materiais de replicação hospedados no Dataverse. Papel + repositório na resposta abaixo.

Melhores

Classificação

Favoritos