Các tác nhân AI có thể đánh giá khả năng tái sản xuất của các phát hiện nghiên cứu không? Bài báo của chúng tôi tại #ACL2025 cho thấy rằng chúng không đạt yêu cầu với REPRO-Bench, một tiêu chuẩn mới đánh giá các tác nhân trên các nhiệm vụ tái sản xuất khoa học xã hội thực tế của 112 bài báo, PDF đầy đủ, mã và dữ liệu. Tác nhân có hiệu suất cao nhất của chúng tôi chỉ đạt <40%! 1/6
Liên kết ở đây và chủ đề bên dưới: Giấy: Mã: Substack: Medium: 2/6
REPRO-Bench bao gồm 112 trường hợp nhiệm vụ, mỗi trường hợp được xây dựng từ những nỗ lực tái sản xuất thực tế được lấy từ các dự án tái sản xuất hàng loạt, I4R, Retraction Watch và các nỗ lực tái sản xuất được đăng trên Twitter/X. Mỗi nhiệm vụ bao gồm một PDF bài báo, mã & dữ liệu tái sản xuất, và một danh sách các phát hiện chính. 3/6
Chúng tôi đánh giá 3 tác nhân phổ biến trên REPRO-Bench. Tác nhân có hiệu suất tốt nhất, CORE-Agent, chỉ đạt 21,4% độ chính xác, thấp hơn cả việc đoán ngẫu nhiên (25%). 4/6
Chúng tôi giới thiệu REPRO-Agent, một tác nhân cải tiến dựa trên phân tích thất bại của chúng tôi. Chỉ với bốn hướng dẫn bổ sung, REPRO-Agent nâng cao độ chính xác lên 36,6%, cải thiện 71% so với CORE-Agent, trong khi vẫn duy trì chi phí tương đương. 5/6
Công việc này là sự hợp tác với @ChuxuanHu, Austin Peters và những người khác. 6/6
6,67K