Jestem kiepski w publikowaniu rzeczy na czas! (moim usprawiedliwieniem jest to, że w tym roku znowu uczę w Addis Coder) Sesja plakatowa dla tego artykułu odbywa się TERAZ! Sesja 5: V-Gather Znajdź 28.07.2025 18:00-19:30 Przywitaj się z @ChuxuanHu :)
Daniel Kang
Daniel Kang29 lip 2025
Czy agenci AI mogą ocenić powtarzalność wyników badań? Nasz artykuł na #ACL2025 pokazuje, że nie spełniają oczekiwań w przypadku REPRO-Bench, nowego benchmarku, który ocenia agentów w rzeczywistych zadaniach z zakresu powtarzalności nauk społecznych na podstawie 112 prac, pełnych PDF-ów, kodu i danych. Nasz najlepiej działający agent uzyskuje wynik <40%! 1/6
2,67K