Смягчающим фактором проблемы с оценками ИИ (ошибки, насыщение, загрязнение) является то, что, несмотря на проблемы, они все еще довольно сильно коррелируют. Поэтому, если ваш ИИ хорошо справляется с GPQA или MMLU или HLE, он также, как правило, хорошо справляется с другими оценками и с настроением, и с реальной работой.
12,13K