AIベンチマークの問題(エラー、飽和、汚染)の緩和要因は、問題があるにもかかわらず、それらすべてが依然としてかなり強い相関関係にあることです。 したがって、AI が GPQA、MMLU、または HLE でうまくいけば、他のベンチマークや雰囲気、実際の仕事でもうまくいく傾向があります。
12.01K