Пом'якшувальним фактором для проблеми з бенчмарками ШІ (помилки, насиченість, забруднення) є те, що, незважаючи на проблеми, всі вони все ще досить сильно корелюють. Отже, якщо ваш штучний інтелект добре працює на GPQA, MMLU або HLE, він також має тенденцію добре працювати в інших тестах, а також на вібраціях і реальній роботі.
12K