Vi lanserar BrowseComp, som står för Surftävling. 🏎️ Tänk på det som kodnings- eller matematiktävlingar – även om dessa tävlingar kanske inte perfekt återspeglar verklig SWE eller matematisk forskning, fångar de en gnista av intelligens. Detta är det riktmärke vi bör bry oss om när vi utvärderar intelligensen hos djupa forskningsliknande surfagenter.
OpenAI
OpenAI11 apr. 2025
Vi använder BrowseComp ("Surftävling") med öppen källkod, ett nytt, utmanande benchmarktest som är utformat för att testa hur väl AI-agenter kan surfa på internet för att hitta information som är svår att hitta. Det är som en skattjakt på nätet... men för bläddringsagenter.
464,67K