Clarificarea performanței ARC-AGI a o3 OpenAI a confirmat: * O3 lansat este un model diferit de ceea ce am testat în decembrie 2024 * Toate nivelurile de calcul o3 lansate sunt mai mici decât versiunea pe care am testat-o * O3 eliberat nu a fost antrenat pe date ARC-AGI, nici măcar pe tren * O3 lansat este reglat pentru utilizarea prin chat/produs, ceea ce introduce atât punctele forte, cât și punctele slabe ale ARC-AGI Ce va face Premiul ARC: * Vom testa din nou o3 lansat (toate nivelurile de calcul) și vom publica rezultatele actualizate. Scorurile anterioare vor fi etichetate "previzualizare" * Vom testa și publica rezultatele o4-mini cât mai curând posibil * Vom testa o3-pro odată ce va fi disponibil
127,39K