Vamos a lanzar BrowseComp, acrónimo de Browsing Competition. 🏎️ Piense en ello como competencias de codificación o matemáticas: si bien es posible que estos concursos no reflejen perfectamente la investigación matemática o SWE del mundo real, sí capturan una chispa de inteligencia. Este es EL punto de referencia que debemos tener en cuenta al evaluar la inteligencia de los agentes de navegación tipo investigación profunda.
OpenAI
OpenAI11 abr 2025
Estamos abriendo el código de BrowseComp ("Competencia de navegación"), un nuevo y desafiante punto de referencia diseñado para probar qué tan bien los agentes de IA pueden navegar por Internet para encontrar información difícil de localizar. Es como una búsqueda del tesoro en línea... sino para los agentes de navegación.
464.62K