Factorul atenuant pentru problema cu benchmark-urile AI (erori, saturație, contaminare) este că, în ciuda problemelor, toate sunt încă destul de puternic corelate. Deci, dacă AI-ul tău se descurcă bine pe GPQA sau MMLU sau HLE, tinde să se descurce bine și pe alte benchmark-uri și pe vibrații și muncă reală.
12,14K