Dette BullshitBench-resultatet forklarer i stor grad den utbredte intuisjonen om at Claude er den beste daglige bilen, til tross for Googles og OAIs imponerende målestokker. Sammenlign BullshitBench med problemløsningsbenchmarkene. Alle sistnevnte forutsetter riktige løsninger. Men i virkeligheten er problemene dårlig definert, og det er ofte uklart hvilke spørsmål som er verdt å stille eller til og med har svar. Du trenger en modell som kan lede deg av feil vei — altså, kalle det tull.