o3 Pro على نتائج تقييم ARC-AGI شبه الخاصة القوس العربي - AGI-1: * منخفض: 44٪ ، 1.64 دولار / مهمة * متوسط: 57٪ ، 3.18 دولار / مهمة * مرتفع: 59٪ ، 4.16 دولار / مهمة القوس العربي 2: * جميع جهود التفكير: <5٪ ، 4-7 دولارات / مهمة الوجبات السريعة: * O3-Pro بما يتماشى مع أداء O3 * السعر الجديد ل o3 يحدد ARC-AGI-1 Frontier
للملاحظة ، فإن o3 Pro هو * ليس * نفس الطراز الذي اختبرناه في ديسمبر 24 (معاينة o3) أكدت OpenAI ذلك صراحة. راجع التغريدة المرجعية لمزيد من المعلومات
ARC Prize
ARC Prize‏17 أبريل 2025
توضيح أداء ARC-AGI ل o3 أكدت OpenAI: * o3 الذي تم إصداره هو نموذج مختلف عما اختبرناه في ديسمبر 2024 * جميع مستويات الحوسبة o3 التي تم إصدارها أصغر من الإصدار الذي اختبرناه * لم يتم تدريب o3 الذي تم إصداره على بيانات ARC-AGI ، ولا حتى مجموعة القطار * تم ضبط o3 الذي تم إصداره لاستخدام الدردشة / المنتج ، والذي يقدم نقاط القوة والضعف في ARC-AGI ماذا ستفعل جائزة ARC: * سنقوم بإعادة اختبار o3 الذي تم إصداره (جميع مستويات الحوسبة) ونشر النتائج المحدثة. سيتم تصنيف الدرجات السابقة على أنها "معاينة" * سنقوم باختبار وإصدار نتائج o4-mini في أقرب وقت ممكن * سنقوم باختبار o3-pro بمجرد توفرها
تم تحديث نتائج O3 لتعكس الانخفاض بنسبة 80٪ في السعر
الجديد على الرسم البياني هو نقاط بيانات ل o3 (التفكير العالي) و o4-mini (التفكير العالي). تم استبعادهم سابقا بسبب مهلات النموذج. مكننا "وضع الخلفية" الجديد من OpenAI من معالجة هذه النماذج على إعدادات حوسبة عالية.
انظر لوحة المتصدرين: إعادة إنتاج النتائج:
‏‎108.74‏K