De verzachtende factor voor het probleem met AI-benchmarks (fouten, verzadiging, contaminatie) is dat, ondanks de problemen, ze allemaal nog steeds vrij sterk gecorreleerd zijn. Dus als je AI goed presteert op GPQA of MMLU of HLE, dan presteert het ook meestal goed op andere benchmarks & op vibes & echt werk.
12,14K