أنا سيء في نشر الأشياء في الوقت المحدد! (عذري هو أنني أقوم بالتدريس في أديس كودر مرة أخرى هذا العام) جلسة الملصقات لهذه الورقة تحدث الآن! الجلسة 5: V-Gather Find 7/28/2025 18:00-19:30 قل مرحبا @ChuxuanHu :)
Daniel Kang
Daniel Kang‏29 يوليو 2025
هل يمكن لعوامل الذكاء الاصطناعي تقييم قابلية تكرار نتائج البحث؟ تظهر ورقتنا #ACL2025 أنها تقصر في REPRO-Bench ، وهو معيار جديد يقيم الوكلاء في مهام استنساخ العلوم الاجتماعية في العالم الحقيقي المكونة من 112 ورقة وملفات PDF كاملة وتعليمات برمجية وبيانات. أعلى درجات وكيلنا أداء <40٪! 1/6
‏‎2.68‏K