Vydáváme soubor BrowseComp, což je zkratka pro Soutěž v prohlížení. 🏎️ Představte si to jako soutěže v programování nebo matematice – i když tyto soutěže nemusí dokonale odrážet skutečnou SWE nebo matematický výzkum, zachycují jiskru inteligence. To je měřítko, o které bychom se měli zajímat při hodnocení inteligence agentů pro prohlížení podobných hloubkovému výzkumu.
OpenAI
OpenAI11. 4. 2025
Pracujeme s otevřeným zdrojovým kódem BrowseComp ("Soutěž v prohlížení"), což je nový náročný benchmark, který testuje, jak dobře dokážou agenti umělé inteligence procházet internet a hledat těžko lokalizovatelné informace. Je to jako online lov mrchožroutů... ale pro agenty procházení.
464,6K