Wir machen BrowseComp („Browsing Competition“) Open Source, ein neuer, herausfordernder Benchmark, der darauf abzielt, zu testen, wie gut KI-Agenten im Internet nach schwer zu findenden Informationen suchen können. Es ist wie eine Online-Schnitzeljagd... aber für Browsing-Agenten.
920,4K