Kami merilis BrowseComp, yang merupakan singkatan dari Kompetisi Penjelajahan. 🏎️ Anggap saja seperti kompetisi pengkodean atau matematika — meskipun kontes ini mungkin tidak mencerminkan SWE atau penelitian matematika dunia nyata dengan sempurna, mereka menangkap percikan kecerdasan. Ini adalah tolok ukur yang harus kita perhatikan saat mengevaluasi kecerdasan agen penjelajahan seperti penelitian mendalam.
OpenAI
OpenAI11 Apr 2025
Kami membuka sumber terbuka BrowseComp ("Kompetisi Penjelajahan"), tolok ukur baru yang menantang yang dirancang untuk menguji seberapa baik agen AI dapat menjelajahi internet untuk menemukan informasi yang sulit ditemukan. Ini seperti perburuan pemulung online... tetapi untuk agen penelusuran.
464,61K