المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 يخطو Grok 4 by @xai خطوات كبيرة في معايير التفكير ، لكن الصورة أكثر دقة مما توحي به النتائج.
إليك كيفية تكديسها - وما يمكننا تعلمه حقا من نتائجها 🧵
📊 إيفال كامل:
1️⃣ Grok 4 الدرجات:
• تحدي التفكير AI2 (سهل): 98٪
• AIME 2025 (الرياضيات): 89٪
• التدقيق المحاسبي: 84٪
• MMLU-Plus: 64٪
• Data4Health: 55٪
هذه هي الدرجات العليا - ولكن دعنا نركز على ما ينجح وما لا يزال يفشل.
2️⃣ AIME 2025
✅ يعالج الجبر والهندسة ونظرية الأعداد
✅ يتبع قواعد تنسيق LaTeX
❌ يكافح مع المنطق متعدد الخطوات
❌ أخطاء في التوافقيات
❌ مشكلات دقة التنسيق (مثل ° مفقود)
3️⃣ التدقيق المحاسبي
✅ قوي في الأخلاقيات وإعداد التقارير
✅ فهم قوي لمبادئ التدقيق
❌ يسيء تفسير الإجراءات المماثلة
❌ فشل في اكتشاف الاختلافات الدقيقة في الإجابة
❌ صعوبة في تطبيق النظرية على حالات العالم الحقيقي
4️⃣ البصيرة الحقيقية؟
حتى النموذج الذي يحتوي على 98٪ في بعض المهام يمكن أن يفشل بشدة في ظل الغموض أو ضغوط التنسيق.
تظهر المعايير مثل AIME و Audit كيف تفشل ، وليس فقط مقدار تسجيلها.
5️⃣ ما أهمية ذلك:
نحن بحاجة إلى تقييم شفاف لكل مهمة - وليس فقط لوحات المتصدرين.
#Grok4 قوية ، لكنها لا تزال هشة في مجالات العالم الحقيقي عالية المخاطر.
🧪 اكتشف التفصيل الكامل:
#الذكاء الاصطناعي #LLMs #Benchmarking

1.02K
الأفضل
المُتصدِّرة
التطبيقات المفضلة