Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro på ARC-AGI Semi Private Eval-resultat
ARC-AGI-1:
* Låg: 44%, $1.64/uppgift
* Medium: 57%, $3.18/uppgift
* Hög: 59%, $4.16/uppgift
ARC-AGI-2:
* Alla resonemangsförsök: <5%, $4-7 / uppgift
Att ta med sig:
* O3-Pro i linje med O3 Performance
* o3:s nya pris sätter ARC-AGI-1 Frontier
Att notera är *inte* samma modell som vi testade i december '24 (o3-preview)
OpenAI har uttryckligen bekräftat detta. Se referens-tweet för mer information

17 apr. 2025
Förtydligande av o3:s ARC-AGI-prestanda
OpenAI har bekräftat:
* Den släppta o3 är en annan modell än den vi testade i december 2024
* Alla utgivna o3-beräkningsnivåer är mindre än den version vi testade
* Den frisläppta o3:an tränades inte på ARC-AGI-data, inte ens tågsättet
* Den släppta o3 är anpassad för chatt/produktanvändning, vilket introducerar både styrkor och svagheter på ARC-AGI
Vad ARC Prize kommer att göra:
* Vi kommer att testa den utgivna o3 (alla beräkningsnivåer) igen och publicera uppdaterade resultat. Tidigare resultat kommer att märkas som "förhandsgranskning"
* Vi kommer att testa och släppa o4-mini-resultat så snart som möjligt
* Vi kommer att testa o3-pro när den är tillgänglig
O3-resultaten har uppdaterats för att återspegla den 80-procentiga prissänkningen
Nytt i diagrammet är datapunkter för o3 (High reasoning) och o4-mini (High reasoning). De uteslöts tidigare på grund av tidsgränser för modellen.
OpenAI:s nya "bakgrundsläge" har gjort det möjligt för oss att bearbeta dessa modeller på höga beräkningsinställningar.
Se topplistan:
Återskapa resultat:
108,77K
Topp
Rankning
Favoriter