私たちは、AIエージェントがインターネットをどれだけうまく閲覧して見つけにくい情報を見つけることができるかをテストするために設計された新しい挑戦的なベンチマークであるBrowseComp(「ブラウジングコンペティション」)をオープンソース化しています。 それはオンラインのスカベンジャーハントのようなものです...しかし、エージェントの閲覧用です。
920.41K