Yếu tố giảm nhẹ cho vấn đề với các tiêu chuẩn AI (lỗi, bão hòa, ô nhiễm) là, mặc dù có vấn đề, chúng vẫn có mối tương quan khá mạnh với nhau. Vì vậy, nếu AI của bạn hoạt động tốt trên GPQA hoặc MMLU hoặc HLE, nó cũng có xu hướng hoạt động tốt trên các tiêu chuẩn khác và trên cảm nhận và công việc thực tế.
12,13K