Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ми випускаємо BrowseComp, що розшифровується як Browsing Competition. 🏎️
Думайте про це як про кодування або математичні змагання — хоча ці змагання можуть не ідеально відображати реальні SWE або математичні дослідження, вони захоплюють іскру інтелекту.
Це еталон, про який ми повинні дбати при оцінці інтелекту агентів, схожих на глибокі дослідження.

11 квіт. 2025 р.
Ми представляємо BrowseComp («Змагання в серфінгу»), новий складний тест, розроблений для перевірки того, наскільки добре агенти штучного інтелекту можуть переглядати Інтернет для пошуку важкодоступної інформації.
Це схоже на онлайн-полювання на сміття... але для агентів з перегляду веб-сторінок.
464,61K
Найкращі
Рейтинг
Вибране