AI基准测试(错误、饱和、污染)问题的缓解因素在于,尽管存在问题,它们之间仍然有相当强的相关性。 因此,如果你的AI在GPQA、MMLU或HLE上表现良好,它通常也会在其他基准测试、氛围和实际工作中表现良好。
12.01K