Tento výsledek BullshitBench do značné míry vysvětluje rozšířenou intuici, že Claude je nejlepší denní auto, navzdory ohromujícím benchmarkům Googlu a OAI. Porovnejte BullshitBench s benchmarky pro řešení problémů. Všechny tyto předpoklady předpokládají správná řešení. Ale v reálném životě jsou problémy špatně definované a často není jasné, jaké otázky stojí za to položit nebo na které mají odpovědi. Potřebujete model, který vás dokáže odvést na špatnou cestu — tedy nazvat nesmyslem.