Czynnikiem łagodzącym problem z benchmarkami AI (błędy, nasycenie, zanieczyszczenie) jest to, że mimo problemów, wszystkie są nadal dość mocno skorelowane. Więc jeśli twoje AI radzi sobie dobrze w GPQA, MMLU lub HLE, to zazwyczaj radzi sobie również dobrze w innych benchmarkach oraz w wibracjach i rzeczywistej pracy.
12,01K