Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Могут ли агенты ИИ оценивать воспроизводимость результатов исследований? Наша статья #ACL2025 показывает, что они не справляются с REPRO-Bench, новым эталоном, который оценивает агентов по задачам воспроизводимости в реальном мире в области социальных наук на основе 112 статей, полных PDF-файлов, кода и данных. Наш агент с наилучшей производительностью набирает <40%! 1/6

Ссылки здесь и тема ниже: Документ: Код: Substack: Medium: 2/6

REPRO-Bench состоит из 112 экземпляров задач, каждая из которых основана на реальных усилиях по воспроизводимости, полученных из проектов массового воспроизведения, I4R, Retraction Watch и попыток воспроизводимости, опубликованных в Twitter/X. Каждая задача включает PDF статьи, код и данные воспроизведения, а также список основных выводов. 3/6

Мы оцениваем 3 популярных агента на REPRO-Bench. Лучший агент, CORE-Agent, достигает всего 21,4% точности, что ниже, чем случайное угадывание (25%). 4/6

Мы представляем REPRO-Agent, улучшенный агент, основанный на нашем анализе неудач. С помощью всего четырех дополнительных инструкций REPRO-Agent повышает точность до 36,6%, что является относительным улучшением на 71% по сравнению с CORE-Agent, при этом сохраняя сопоставимые затраты. 5/6

Эта работа выполнена совместно с @ChuxuanHu, Остином Питерсом и другими. 6/6

6,01K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные