Udostępniamy kod źródłowy BrowseComp („Konkurs Przeglądania”), nowego, wymagającego benchmarku zaprojektowanego do testowania, jak dobrze agenci AI potrafią przeszukiwać internet w celu znalezienia trudno dostępnych informacji. To jak internetowe polowanie na skarby... ale dla agentów przeglądających.
920,4K