Czy agenci AI mogą ocenić powtarzalność wyników badań? Nasz artykuł na #ACL2025 pokazuje, że nie spełniają oczekiwań w przypadku REPRO-Bench, nowego benchmarku, który ocenia agentów w rzeczywistych zadaniach z zakresu powtarzalności nauk społecznych na podstawie 112 prac, pełnych PDF-ów, kodu i danych. Nasz najlepiej działający agent uzyskuje wynik <40%! 1/6
Linki tutaj i wątek poniżej: Dokument: Kod: Substack: Medium: 2/6
REPRO-Bench składa się z 112 instancji zadań, z których każda oparta jest na rzeczywistych wysiłkach w zakresie reprodukcji, pochodzących z projektów masowej reprodukcji, I4R, Retraction Watch oraz prób reprodukcji publikowanych na Twitterze/X. Każde zadanie zawiera PDF artykułu, kod i dane reprodukcyjne oraz listę głównych ustaleń. 3/6
Oceniamy 3 popularnych agentów na REPRO-Bench. Najlepiej działający agent, CORE-Agent, osiąga tylko 21,4% dokładności, co jest niższe niż losowe zgadywanie (25%). 4/6
Wprowadzamy REPRO-Agent, ulepszony agent oparty na naszej analizie awarii. Dzięki zaledwie czterem dodatkowym instrukcjom, REPRO-Agent zwiększa dokładność do 36,6%, co stanowi 71% względnej poprawy w porównaniu do CORE-Agenta, przy jednoczesnym utrzymaniu porównywalnych kosztów. 5/6
Ta praca jest wspólna z @ChuxuanHu, Austinem Petersem i innymi. 6/6
6,66K