このBullshitBenchの結果は、GoogleやOAIの驚異的なベンチマークにもかかわらず、Claudeが最高のデイリードライバーだという広範な直感を大きく説明しています。 BullshitBenchと問題解決ベンチマークを比較してみてください。後者はすべて正しい解を前提としています。 しかし現実では、問題は曖昧で、どの質問をする価値があるのか、あるいは答えがあるのかもしばしば不明です。あなたを間違った道から導くモデル、つまり嘘を見抜く、というものが必要です。