متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

🧠 يخطو Grok 4 by @xai خطوات كبيرة في معايير التفكير ، لكن الصورة أكثر دقة مما توحي به النتائج. إليك كيفية تكديسها - وما يمكننا تعلمه حقا من نتائجها 🧵 📊 إيفال كامل: 1️⃣ Grok 4 الدرجات: • تحدي التفكير AI2 (سهل): 98٪ • AIME 2025 (الرياضيات): 89٪ • التدقيق المحاسبي: 84٪ • MMLU-Plus: 64٪ • Data4Health: 55٪ هذه هي الدرجات العليا - ولكن دعنا نركز على ما ينجح وما لا يزال يفشل. 2️⃣ AIME 2025 ✅ يعالج الجبر والهندسة ونظرية الأعداد ✅ يتبع قواعد تنسيق LaTeX ❌ يكافح مع المنطق متعدد الخطوات ❌ أخطاء في التوافقيات ❌ مشكلات دقة التنسيق (مثل ° مفقود) 3️⃣ التدقيق المحاسبي ✅ قوي في الأخلاقيات وإعداد التقارير ✅ فهم قوي لمبادئ التدقيق ❌ يسيء تفسير الإجراءات المماثلة ❌ فشل في اكتشاف الاختلافات الدقيقة في الإجابة ❌ صعوبة في تطبيق النظرية على حالات العالم الحقيقي 4️⃣ البصيرة الحقيقية؟ حتى النموذج الذي يحتوي على 98٪ في بعض المهام يمكن أن يفشل بشدة في ظل الغموض أو ضغوط التنسيق. تظهر المعايير مثل AIME و Audit كيف تفشل ، وليس فقط مقدار تسجيلها. 5️⃣ ما أهمية ذلك: نحن بحاجة إلى تقييم شفاف لكل مهمة - وليس فقط لوحات المتصدرين. #Grok4 قوية ، لكنها لا تزال هشة في مجالات العالم الحقيقي عالية المخاطر. 🧪 اكتشف التفصيل الكامل: #الذكاء الاصطناعي #LLMs #Benchmarking

‏‎1.02‏K

الأفضل

المُتصدِّرة

التطبيقات المفضلة

رائج على السلسة

رائج على منصة X

أهم عمليات التمويل الأخيرة

الأبرز