Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jestem kiepski w publikowaniu rzeczy na czas! (moim usprawiedliwieniem jest to, że w tym roku znowu uczę w Addis Coder)
Sesja plakatowa dla tego artykułu odbywa się TERAZ!
Sesja 5: V-Gather Znajdź 28.07.2025 18:00-19:30
Przywitaj się z @ChuxuanHu :)

29 lip 2025
Czy agenci AI mogą ocenić powtarzalność wyników badań?
Nasz artykuł na #ACL2025 pokazuje, że nie spełniają oczekiwań w przypadku REPRO-Bench, nowego benchmarku, który ocenia agentów w rzeczywistych zadaniach z zakresu powtarzalności nauk społecznych na podstawie 112 prac, pełnych PDF-ów, kodu i danych. Nasz najlepiej działający agent uzyskuje wynik <40%!
1/6

2,67K
Najlepsze
Ranking
Ulubione