o3 Pro on ARC-AGI セミプライベート評価結果 ARC-AGI-1: *低:44%、$ 1.64 /タスク *ミディアム:57%、$ 3.18 /タスク *高:59%、$ 4.16 /タスク ARC-AGI-2: *すべての推論努力:<5%、$ 4-7 /タスク テイクアウェイ: * O3-ProはO3パフォーマンスに合わせます * o3の新価格はARC-AGI-1 Frontierを設定
なお、o3 Proは、24年12月(o3-preview)にテストしたモデルと同じではありません。 OpenAIはこれを明確に確認しています。詳細については、参照ツイートを参照してください
ARC Prize
ARC Prize2025年4月17日
o3のARC-AGI性能の明確化 OpenAIは以下を確認しています。 ※発売されたo3は、2024年12月にテストしたものとは異なるモデルです * リリースされたすべての o3 コンピューティング レベルは、テストしたバージョンよりも小さくなっています ※リリースされたo3はARC-AGIデータで学習されておらず、列車セットも登録されていませんでした ※リリースされたo3は、ARC-AGIの長所と短所をご紹介するチャット/製品使用向けにチューニングされています ARCプライズが行うこと: * リリースされた o3 (すべてのコンピューティング階層) を再テストし、更新された結果を公開します。以前のスコアには「プレビュー」というラベルが付けられます * できるだけ早くo4-miniの結果をテストして発表します ※o3-proが利用可能になり次第、テストを行います
O3の結果は、価格の80%の引き下げを反映するように更新されました
このチャートに新しく追加されたのは、o3 (High reasoning) と o4-mini (High reasoning) のデータポイントです。以前は、モデルのタイムアウトのために除外されていました。 OpenAIの新しい「バックグラウンドモード」により、これらのモデルを高いコンピューティング設定で処理できるようになりました。
リーダーボードを参照してください。 結果を再現します。
108.72K