Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Os agentes de IA podem avaliar a reprodutibilidade dos resultados da pesquisa?
Nosso artigo #ACL2025 mostra que eles ficam aquém do REPRO-Bench, um novo benchmark que avalia os agentes em tarefas de reprodutibilidade de ciências sociais do mundo real de 112 artigos, PDFs completos, código e dados. Nosso agente de melhor desempenho pontua <40%!
1/6

Links aqui e tópico abaixo:
Papel:
Código:
Subpilha:
Média:
2/6
O REPRO-Bench consiste em 112 instâncias de tarefas, cada uma construída a partir de esforços de reprodutibilidade do mundo real provenientes de projetos de reprodução em massa, I4R, Retraction Watch e tentativas de reprodutibilidade postadas no Twitter/X. Cada tarefa inclui um PDF em papel, código de reprodução e dados e uma lista das principais descobertas.
3/6

Avaliamos 3 agentes populares no REPRO-Bench. O agente de melhor desempenho, o CORE-Agent, atinge apenas 21,4% de precisão, o que é menor do que a adivinhação aleatória (25%).
4/6
Apresentamos o REPRO-Agent, um agente aprimorado com base em nossa análise de falhas. Com apenas quatro instruções adicionais, o REPRO-Agent aumenta a precisão para 36,6%, uma melhoria relativa de 71% em relação ao CORE-Agent, mantendo um custo comparável.
5/6
Este trabalho é conjunto com @ChuxuanHu, Austin Peters e outros.
6/6
4,1K
Melhores
Classificação
Favoritos