Den förmildrande faktorn för problemet med AI-riktmärken (fel, mättnad, kontaminering) är att de alla fortfarande är ganska starkt korrelerade, trots problem. Så om din AI klarar sig bra på GPQA eller MMLU eller HLE, tenderar den också att göra bra ifrån sig på andra benchmarks och på vibbar och riktigt arbete.
12,14K