Stiamo rendendo open source BrowseComp ("Competizione di Navigazione"), un nuovo e impegnativo benchmark progettato per testare quanto bene gli agenti AI possono navigare su Internet per trovare informazioni difficili da localizzare. È come una caccia al tesoro online... ma per agenti di navigazione.
920,41K