Den formildende faktoren for problemet med AI-benchmarks (feil, metning, forurensning) er at de til tross for problemer fortsatt er ganske sterkt korrelert. Så hvis AI-en din gjør det bra på GPQA eller MMLU eller HLE, har den også en tendens til å gjøre det bra på andre benchmarks og på vibber og ekte arbeid.
12K