Estamos lançando o BrowseComp, que significa Competição de Navegação. 🏎️ Pense nisso como competições de codificação ou matemática - embora essas competições possam não refletir perfeitamente o SWE do mundo real ou a pesquisa matemática, elas capturam uma centelha de inteligência. Esta é a referência com a qual devemos nos preocupar ao avaliar a inteligência de agentes de navegação semelhantes a pesquisas profundas.
OpenAI
OpenAI11 de abr. de 2025
Estamos abrindo o código do BrowseComp ("Competição de Navegação"), um novo e desafiador benchmark projetado para testar o quão bem os agentes de IA podem navegar na Internet para encontrar informações difíceis de localizar. É como uma caça ao tesouro online... mas para agentes de navegação.
464,6K