Lansăm BrowseComp, care înseamnă Browsing Competition. 🏎️ Gândiți-vă la asta ca la competiții de programare sau matematică – deși aceste concursuri pot să nu reflecte perfect SWE sau cercetarea matematică din lumea reală, ele captează o scânteie de inteligență. Acesta este punctul de referință de care ar trebui să ne pese atunci când evaluăm inteligența agenților de navigare de tip cercetare profundă.
OpenAI
OpenAI11 apr. 2025
Deschidem BrowseComp ("Browsing Competition"), un nou benchmark provocator, conceput pentru a testa cât de bine pot agenții AI să navigheze pe internet pentru a găsi informații greu de localizat. Este ca o vânătoare de comori online... dar pentru agenții de navigare.
464,6K