Vi lanserer BrowseComp, som står for Browsing Competition. 🏎️ Tenk på det som koding eller matematikkkonkurranser – selv om disse konkurransene kanskje ikke perfekt gjenspeiler SWE eller matematisk forskning i den virkelige verden, fanger de en gnist av intelligens. Dette er målestokken vi bør bry oss om når vi evaluerer intelligensen til dype forskningslignende surfeagenter.
OpenAI
OpenAI11. apr. 2025
Vi har åpen kildekode for BrowseComp («nettleserkonkurranse»), en ny, utfordrende målestokk designet for å teste hvor godt AI-agenter kan surfe på internett for å finne informasjon som er vanskelig å finne. Det er som en skattejakt på nett ... men for surfeagenter.
464,61K