Мы открываем исходный код BrowseComp ("Соревнование по просмотру"), нового сложного бенчмарка, предназначенного для проверки того, насколько хорошо ИИ-агенты могут просматривать интернет для поиска труднонаходимой информации. Это похоже на онлайн-охоту за сокровищами... но для агентов просмотра.
920,4K