Faktor mitigasi untuk masalah dengan tolok ukur AI (kesalahan, saturasi, kontaminasi) adalah, meskipun ada masalah, semuanya masih cukup berkorelasi. Jadi jika AI Anda melakukannya dengan baik di GPQA atau MMLU atau HLE, itu juga cenderung melakukannya dengan baik pada tolok ukur lain & pada getaran & pekerjaan nyata.
12K