AI 基準測試(錯誤、飽和、污染)問題的緩解因素在於,儘管存在問題,但它們之間仍然有相當強的相關性。 因此,如果你的 AI 在 GPQA、MMLU 或 HLE 上表現良好,那麼它在其他基準測試、氛圍和實際工作上也往往表現良好。
12K