Le facteur atténuant du problème des benchmarks d'IA (erreurs, saturation, contamination) est que, malgré les problèmes, ils sont tous encore assez fortement corrélés. Donc, si votre IA performe bien sur GPQA ou MMLU ou HLE, elle a également tendance à bien performer sur d'autres benchmarks et sur les vibes et le travail réel.
12,12K