Klargjøring av o3s ARC-AGI-ytelse OpenAI har bekreftet: * Den utgitte o3 er en annen modell enn den vi testet i desember 2024 * Alle utgitte o3-databehandlingsnivåer er mindre enn versjonen vi testet * Den frigitte o3 ble ikke trent på ARC-AGI-data, ikke engang togsettet * Den utgitte o3 er innstilt for chat/produktbruk, noe som introduserer både styrker og svakheter på ARC-AGI Hva ARC Prize vil gjøre: * Vi tester de utgitte o3-nivåene på nytt (alle databehandlingsnivåer) og publiserer oppdaterte resultater. Tidligere poengsummer vil bli merket "forhåndsvisning" * Vi vil teste og frigi o4-mini-resultater så snart som mulig * Vi vil teste o3-pro når den er tilgjengelig
127,36K