We brengen BrowseComp uit, wat staat voor Browsing Competition. 🏎️ Zie het als programmeer- of wiskundewedstrijden — hoewel deze wedstrijden misschien niet perfect de echte wereld van software engineering of wiskundig onderzoek weerspiegelen, vangen ze wel een sprankje intelligentie. Dit is DE benchmark waar we ons om moeten bekommeren bij het evalueren van de intelligentie van diep onderzoekachtige browse-agents.
OpenAI
OpenAI11 apr 2025
We maken BrowseComp (“Browsing Competition”) open source, een nieuwe, uitdagende benchmark die is ontworpen om te testen hoe goed AI-agenten het internet kunnen doorbladeren om moeilijk te vinden informatie te vinden. Het is als een online speurtocht... maar dan voor browse-agents.
464,6K