o3 Pro u Polosoukromé výsledky ARC-AGI ARC-AGI-1: * Nízká: 44%, 1,64 $/úkol * Střední: 57%, $3.18/úkol * Vysoká: 59%, 4,16 $/úkol ARC-AGI-2: * Všechny snahy o uvažování: <5%, 4-7 $/úkol Poznatky: * O3-PRO v souladu s výkonem O3 * nová cena o3 nastavuje hranici ARC-AGI-1
Je třeba poznamenat, že o3 Pro *není* stejný model, který jsme testovali v prosinci '24 (o3-preview) OpenAI to výslovně potvrdila. Pro více informací se podívejte na referenční tweet
ARC Prize
ARC Prize17. 4. 2025
Objasnění výkonu ARC-AGI o3 OpenAI potvrdila: * Vydaný model o3 je jiný model, než jaký jsme testovali v prosinci 2024 * Všechny vydané úrovně o3 compute jsou menší než verze, kterou jsme testovali * Uvolněné o3 nebylo natrénováno na datech ARC-AGI, dokonce ani vlaková souprava * Vydané o3 je vyladěno pro použití v chatu/produktu, což představuje silné i slabé stránky na ARC-AGI Co ARC Prize udělá: * Znovu otestujeme vydané o3 (všechny výpočetní úrovně) a zveřejníme aktualizované výsledky. Předchozí skóre budou označena jako "náhled" * Výsledky o4-mini otestujeme a zveřejníme co nejdříve * O3-pro otestujeme, jakmile bude k dispozici
Výsledky služby O3 byly aktualizovány tak, aby odrážely 80% snížení ceny
Novinkou v grafu jsou datové body pro o3 (Vysoká příčina) a o4-mini (Vysoká příčina). Dříve byly vyloučeny z důvodu vypršení časového limitu modelu. Nový "režim pozadí" OpenAI nám umožnil zpracovávat tyto modely na vysokých výpočetních nastaveních.
Zobrazit žebříček: Reprodukce výsledků:
108,72K