BrowseComp(ブラウジングコンペティションの略)をリリースします。🏎️ コーディングや数学のコンテストのように考えてみてください — これらのコンテストは、現実世界のSWEや数学の研究を完全に反映しているわけではありませんが、知性のひらめきを捉えています。 これは、ディープリサーチのようなブラウジングエージェントの知能を評価する際に考慮すべきベンチマークです。
OpenAI
OpenAI2025年4月11日
私たちは、AIエージェントがインターネットをどれだけうまく閲覧して見つけにくい情報を見つけることができるかをテストするために設計された新しい挑戦的なベンチマークであるBrowseComp(「ブラウジングコンペティション」)をオープンソース化しています。 それはオンラインのスカベンジャーハントのようなものです...しかし、エージェントの閲覧用です。
464.6K