Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro u Polosoukromé výsledky ARC-AGI
ARC-AGI-1:
* Nízká: 44%, 1,64 $/úkol
* Střední: 57%, $3.18/úkol
* Vysoká: 59%, 4,16 $/úkol
ARC-AGI-2:
* Všechny snahy o uvažování: <5%, 4-7 $/úkol
Poznatky:
* O3-PRO v souladu s výkonem O3
* nová cena o3 nastavuje hranici ARC-AGI-1
Je třeba poznamenat, že o3 Pro *není* stejný model, který jsme testovali v prosinci '24 (o3-preview)
OpenAI to výslovně potvrdila. Pro více informací se podívejte na referenční tweet

17. 4. 2025
Objasnění výkonu ARC-AGI o3
OpenAI potvrdila:
* Vydaný model o3 je jiný model, než jaký jsme testovali v prosinci 2024
* Všechny vydané úrovně o3 compute jsou menší než verze, kterou jsme testovali
* Uvolněné o3 nebylo natrénováno na datech ARC-AGI, dokonce ani vlaková souprava
* Vydané o3 je vyladěno pro použití v chatu/produktu, což představuje silné i slabé stránky na ARC-AGI
Co ARC Prize udělá:
* Znovu otestujeme vydané o3 (všechny výpočetní úrovně) a zveřejníme aktualizované výsledky. Předchozí skóre budou označena jako "náhled"
* Výsledky o4-mini otestujeme a zveřejníme co nejdříve
* O3-pro otestujeme, jakmile bude k dispozici
Výsledky služby O3 byly aktualizovány tak, aby odrážely 80% snížení ceny
Novinkou v grafu jsou datové body pro o3 (Vysoká příčina) a o4-mini (Vysoká příčina). Dříve byly vyloučeny z důvodu vypršení časového limitu modelu.
Nový "režim pozadí" OpenAI nám umožnil zpracovávat tyto modely na vysokých výpočetních nastaveních.
Zobrazit žebříček:
Reprodukce výsledků:
108,72K
Top
Hodnocení
Oblíbené