Os agentes de IA podem avaliar a reprodutibilidade dos resultados da pesquisa? Nosso artigo #ACL2025 mostra que eles ficam aquém do REPRO-Bench, um novo benchmark que avalia os agentes em tarefas de reprodutibilidade de ciências sociais do mundo real de 112 artigos, PDFs completos, código e dados. Nosso agente de melhor desempenho pontua <40%! 1/6
Links aqui e tópico abaixo: Papel: Código: Subpilha: Média: 2/6
O REPRO-Bench consiste em 112 instâncias de tarefas, cada uma construída a partir de esforços de reprodutibilidade do mundo real provenientes de projetos de reprodução em massa, I4R, Retraction Watch e tentativas de reprodutibilidade postadas no Twitter/X. Cada tarefa inclui um PDF em papel, código de reprodução e dados e uma lista das principais descobertas. 3/6
Avaliamos 3 agentes populares no REPRO-Bench. O agente de melhor desempenho, o CORE-Agent, atinge apenas 21,4% de precisão, o que é menor do que a adivinhação aleatória (25%). 4/6
Apresentamos o REPRO-Agent, um agente aprimorado com base em nossa análise de falhas. Com apenas quatro instruções adicionais, o REPRO-Agent aumenta a precisão para 36,6%, uma melhoria relativa de 71% em relação ao CORE-Agent, mantendo um custo comparável. 5/6
Este trabalho é conjunto com @ChuxuanHu, Austin Peters e outros. 6/6
4,1K