時間通りに投稿するのが苦手!(言い訳は、今年もアディス・コーダーで教えているからです) この論文のポスターセッションは今開催中です! セッション5:Vギャザー検索 2025/7/28 18:00-19:30 @ChuxuanHu :)に挨拶
Daniel Kang
Daniel Kang2025年7月29日
AI エージェントは研究結果の再現性を評価できますか? 私たちの #ACL2025 論文では、112 の論文、完全な PDF、コード、およびデータの実際の社会科学の再現性タスクでエージェントを評価する新しいベンチマークである REPRO-Bench では不十分であることが示されています。最もパフォーマンスの高いエージェントのスコアは<40%です。 1/6
2.68K