Sou mau em publicar coisas a tempo! (a minha desculpa é que estou a ensinar na Addis Coder novamente este ano) A sessão de pôsteres para este artigo está a acontecer AGORA! Sessão 5: V-Gather Encontre 28/07/2025 18:00-19:30 Diga olá ao @ChuxuanHu :)
Daniel Kang
Daniel Kang29/07/2025
Os agentes de IA podem avaliar a reprodutibilidade das descobertas de pesquisa? O nosso artigo #ACL2025 mostra que eles ficam aquém com o REPRO-Bench, um novo benchmark que avalia agentes em tarefas de reprodutibilidade de ciências sociais do mundo real de 112 artigos, PDFs completos, código e dados. O nosso agente de melhor desempenho marca <40%! 1/6
2,69K