我不擅长按时发布东西!(我的借口是我今年又在阿迪斯编程学院教书) 这篇论文的海报展示正在进行中! 会议5:V-Gather 找到 2025年7月28日 18:00-19:30 向 @ChuxuanHu 打个招呼 :)
Daniel Kang
Daniel Kang2025年7月29日
AI代理能评估研究结果的可重复性吗? 我们的#ACL2025论文表明,它们在REPRO-Bench上表现不佳,这是一个新的基准,评估代理在112篇论文的真实社会科学可重复性任务中的表现,包括完整的PDF、代码和数据。我们表现最好的代理得分不到40%! 1/6
2.67K