Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro auf ARC-AGI Semi Private Eval Ergebnisse
ARC-AGI-1:
* Niedrig: 44%, 1,64 $/Aufgabe
* Mittel: 57 %, 3,18 $/Aufgabe
* Hoch: 59 %, 4,16 $/Aufgabe
ARC-AGI-2:
* Alle Argumentationsbemühungen: <5%, $4-7/Aufgabe
Fazit:
* O3-Pro im Einklang mit O3 Performance
* Der neue Preis von o3 setzt die Grenzen des ARC-AGI-1
Zu beachten ist, dass o3 Pro *nicht* dasselbe Modell ist, das wir im Dezember '24 (o3-preview) getestet haben.
OpenAI hat dies ausdrücklich bestätigt. Siehe den Referenz-Tweet für weitere Informationen.

17. Apr. 2025
Klärung der ARC-AGI-Leistung von o3
OpenAI hat bestätigt:
* Das veröffentlichte o3 ist ein anderes Modell als das, was wir im Dezember 2024 getestet haben
* Alle veröffentlichten o3-Computeebenen sind kleiner als die von uns getestete Version
* Das freigegebene o3 wurde nicht mit ARC-AGI-Daten trainiert, nicht einmal das Zugset
* Das veröffentlichte o3 ist auf die Chat-/Produktnutzung abgestimmt, was sowohl Stärken als auch Schwächen von ARC-AGI mit sich bringt
Was der ARC-Preis tun wird:
* Wir werden die veröffentlichte Version o3 (alle Compute-Ebenen) erneut testen und aktualisierte Ergebnisse veröffentlichen. Frühere Ergebnisse werden als "Vorschau" gekennzeichnet
* Wir werden die o4-mini-Ergebnisse so schnell wie möglich testen und veröffentlichen
* Wir werden o3-pro testen, sobald es verfügbar ist
Die o3-Ergebnisse wurden aktualisiert, um die Preissenkung um 80 % widerzuspiegeln.
Neu auf dem Diagramm sind Datenpunkte für o3 (Hohe Vernunft) und o4-mini (Hohe Vernunft). Sie wurden zuvor aufgrund von Modellzeitüberschreitungen ausgeschlossen.
Der neue ‚Hintergrundmodus‘ von OpenAI hat es uns ermöglicht, diese Modelle mit hohen Rechenressourcen zu verarbeiten.
Siehe Rangliste:
Ergebnisse reproduzieren:
108,72K
Top
Ranking
Favoriten