Ми випускаємо BrowseComp, що розшифровується як Browsing Competition. 🏎️ Думайте про це як про кодування або математичні змагання — хоча ці змагання можуть не ідеально відображати реальні SWE або математичні дослідження, вони захоплюють іскру інтелекту. Це еталон, про який ми повинні дбати при оцінці інтелекту агентів, схожих на глибокі дослідження.
OpenAI
OpenAI11 квіт. 2025 р.
Ми представляємо BrowseComp («Змагання в серфінгу»), новий складний тест, розроблений для перевірки того, наскільки добре агенти штучного інтелекту можуть переглядати Інтернет для пошуку важкодоступної інформації. Це схоже на онлайн-полювання на сміття... але для агентів з перегляду веб-сторінок.
464,61K