O fator atenuante para o problema com os benchmarks de IA (erros, saturação, contaminação) é que, apesar dos problemas, todos ainda estão bastante correlacionados. Portanto, se a sua IA se sai bem no GPQA ou MMLU ou HLE, também tende a se sair bem em outros benchmarks e em vibrações e trabalho real.
12,14K