Dit BullshitBench-resultaat helpt goed te verklaren waarom de algemene intuïtie is dat Claude de beste dagelijkse keuze is, ondanks de verbluffende benchmarks van Google en OAI. Stel BullshitBench tegenover de probleemoplossende benchmarks. Al deze laatste gaan uit van correcte oplossingen. Maar in het echte leven zijn problemen slecht gedefinieerd en is het vaak onduidelijk welke vragen het waard zijn om te stellen of zelfs antwoorden hebben. Je hebt een model nodig dat je van het verkeerde pad kan afleiden — oftewel, bullshit kan aanroepen.