Este resultado do BullshitBench ajuda a explicar a intuição generalizada de que Claude é o melhor para uso diário, apesar dos impressionantes benchmarks da Google e da OAI. Contraste o BullshitBench com os benchmarks de resolução de problemas. Todos estes últimos pressupõem soluções corretas. Mas na vida real, os problemas são mal definidos e muitas vezes não está claro quais perguntas valem a pena fazer ou mesmo têm respostas. Você precisa de um modelo que possa desviá-lo do caminho errado — ou seja, chamar de bullshit.