Stiamo lanciando BrowseComp, che sta per Competizione di Navigazione. 🏎️ Pensalo come le competizioni di coding o di matematica: mentre questi concorsi potrebbero non riflettere perfettamente il lavoro reale di SWE o la ricerca matematica, catturano comunque una scintilla di intelligenza. Questo è IL benchmark di cui dovremmo preoccuparci quando valutiamo l'intelligenza di agenti di navigazione simili a ricerche approfondite.
OpenAI
OpenAI11 apr 2025
Stiamo rendendo open source BrowseComp ("Competizione di Navigazione"), un nuovo e impegnativo benchmark progettato per testare quanto bene gli agenti AI possono navigare su Internet per trovare informazioni difficili da localizzare. È come una caccia al tesoro online... ma per agenti di navigazione.
464,59K