Estamos a abrir o código-fonte do BrowseComp ("Competição de Navegação"), um novo e desafiador benchmark projetado para testar quão bem os agentes de IA conseguem navegar na internet para encontrar informações difíceis de localizar. É como uma caça ao tesouro online... mas para agentes de navegação.
920,4K