El factor mitigante para el problema con los benchmarks de IA (errores, saturación, contaminación) es que, a pesar de los problemas, todos siguen estando bastante correlacionados. Así que si tu IA tiene un buen desempeño en GPQA o MMLU o HLE, también tiende a hacerlo bien en otros benchmarks y en sensaciones y trabajo real.
12,13K