o3 Pro auf ARC-AGI Semi Private Eval Ergebnisse ARC-AGI-1: * Niedrig: 44%, 1,64 $/Aufgabe * Mittel: 57 %, 3,18 $/Aufgabe * Hoch: 59 %, 4,16 $/Aufgabe ARC-AGI-2: * Alle Argumentationsbemühungen: <5%, $4-7/Aufgabe Fazit: * O3-Pro im Einklang mit O3 Performance * Der neue Preis von o3 setzt die Grenzen des ARC-AGI-1
Zu beachten ist, dass o3 Pro *nicht* dasselbe Modell ist, das wir im Dezember '24 (o3-preview) getestet haben. OpenAI hat dies ausdrücklich bestätigt. Siehe den Referenz-Tweet für weitere Informationen.
ARC Prize
ARC Prize17. Apr. 2025
Klärung der ARC-AGI-Leistung von o3 OpenAI hat bestätigt: * Das veröffentlichte o3 ist ein anderes Modell als das, was wir im Dezember 2024 getestet haben * Alle veröffentlichten o3-Computeebenen sind kleiner als die von uns getestete Version * Das freigegebene o3 wurde nicht mit ARC-AGI-Daten trainiert, nicht einmal das Zugset * Das veröffentlichte o3 ist auf die Chat-/Produktnutzung abgestimmt, was sowohl Stärken als auch Schwächen von ARC-AGI mit sich bringt Was der ARC-Preis tun wird: * Wir werden die veröffentlichte Version o3 (alle Compute-Ebenen) erneut testen und aktualisierte Ergebnisse veröffentlichen. Frühere Ergebnisse werden als "Vorschau" gekennzeichnet * Wir werden die o4-mini-Ergebnisse so schnell wie möglich testen und veröffentlichen * Wir werden o3-pro testen, sobald es verfügbar ist
Die o3-Ergebnisse wurden aktualisiert, um die Preissenkung um 80 % widerzuspiegeln.
Neu auf dem Diagramm sind Datenpunkte für o3 (Hohe Vernunft) und o4-mini (Hohe Vernunft). Sie wurden zuvor aufgrund von Modellzeitüberschreitungen ausgeschlossen. Der neue ‚Hintergrundmodus‘ von OpenAI hat es uns ermöglicht, diese Modelle mit hohen Rechenressourcen zu verarbeiten.
Siehe Rangliste: Ergebnisse reproduzieren:
108,72K