المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro على نتائج تقييم ARC-AGI شبه الخاصة
القوس العربي - AGI-1:
* منخفض: 44٪ ، 1.64 دولار / مهمة
* متوسط: 57٪ ، 3.18 دولار / مهمة
* مرتفع: 59٪ ، 4.16 دولار / مهمة
القوس العربي 2:
* جميع جهود التفكير: <5٪ ، 4-7 دولارات / مهمة
الوجبات السريعة:
* O3-Pro بما يتماشى مع أداء O3
* السعر الجديد ل o3 يحدد ARC-AGI-1 Frontier
للملاحظة ، فإن o3 Pro هو * ليس * نفس الطراز الذي اختبرناه في ديسمبر 24 (معاينة o3)
أكدت OpenAI ذلك صراحة. راجع التغريدة المرجعية لمزيد من المعلومات

17 أبريل 2025
توضيح أداء ARC-AGI ل o3
أكدت OpenAI:
* o3 الذي تم إصداره هو نموذج مختلف عما اختبرناه في ديسمبر 2024
* جميع مستويات الحوسبة o3 التي تم إصدارها أصغر من الإصدار الذي اختبرناه
* لم يتم تدريب o3 الذي تم إصداره على بيانات ARC-AGI ، ولا حتى مجموعة القطار
* تم ضبط o3 الذي تم إصداره لاستخدام الدردشة / المنتج ، والذي يقدم نقاط القوة والضعف في ARC-AGI
ماذا ستفعل جائزة ARC:
* سنقوم بإعادة اختبار o3 الذي تم إصداره (جميع مستويات الحوسبة) ونشر النتائج المحدثة. سيتم تصنيف الدرجات السابقة على أنها "معاينة"
* سنقوم باختبار وإصدار نتائج o4-mini في أقرب وقت ممكن
* سنقوم باختبار o3-pro بمجرد توفرها
تم تحديث نتائج O3 لتعكس الانخفاض بنسبة 80٪ في السعر
الجديد على الرسم البياني هو نقاط بيانات ل o3 (التفكير العالي) و o4-mini (التفكير العالي). تم استبعادهم سابقا بسبب مهلات النموذج.
مكننا "وضع الخلفية" الجديد من OpenAI من معالجة هذه النماذج على إعدادات حوسبة عالية.
انظر لوحة المتصدرين:
إعادة إنتاج النتائج:
108.74K
الأفضل
المُتصدِّرة
التطبيقات المفضلة