Der mildernde Faktor für das Problem mit KI-Benchmarks (Fehler, Sättigung, Kontamination) ist, dass sie trotz der Probleme alle ziemlich stark korreliert sind. Wenn Ihre KI also gut bei GPQA, MMLU oder HLE abschneidet, schneidet sie auch tendenziell gut bei anderen Benchmarks und bei Vibes und echter Arbeit ab.
12K