Ich bin schlecht darin, Dinge pünktlich zu posten! (Meine Ausrede ist, dass ich dieses Jahr wieder an der Addis Coder unterrichte) Die Postersitzung für dieses Papier findet JETZT STATT! Sitzung 5: V-Gather Finden 28.07.2025 18:00-19:30 Sag hi zu @ChuxuanHu :)
Daniel Kang
Daniel Kang29. Juli 2025
Können KI-Agenten die Reproduzierbarkeit von Forschungsergebnissen bewerten? Unser #ACL2025-Papier zeigt, dass sie mit REPRO-Bench, einem neuen Benchmark, das Agenten bei realen Aufgaben zur Reproduzierbarkeit in den Sozialwissenschaften von 112 Arbeiten, vollständigen PDFs, Code und Daten bewertet, hinter den Erwartungen zurückbleiben. Unser leistungsstärkster Agent erzielt <40%! 1/6
2,68K