O fator atenuante para o problema com benchmarks de IA (erros, saturação, contaminação) é que, apesar dos problemas, todos eles ainda estão fortemente correlacionados. Portanto, se sua IA se sai bem em GPQA ou MMLU ou HLE, ela também tende a se sair bem em outros benchmarks e em vibrações e trabalho real.
12,14K