المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
تحليل مستقل لنماذج الذكاء الاصطناعي وموفري الاستضافة - اختر أفضل نموذج ومزود واجهة برمجة تطبيقات لحالة الاستخدام الخاصة بك
تطلق DeepSeek V3.1 ، وتوحيد V3 و R1 في نموذج تفكير هجين مع زيادة تدريجية في الذكاء
زيادة الذكاء التدريجي: تظهر نتائج القياس الأولية ل DeepSeek V3.1 مؤشر ذكاء التحليل الاصطناعي البالغ 60 في وضع التفكير ، ارتفاعا من درجة R1 البالغة 59. في الوضع غير المنطقي ، يحقق V3.1 درجة 49 ، وهي زيادة أكبر عن درجة V3 0324 السابقة البالغة 44. هذا يترك V3.1 (المنطق) وراء أحدث Qwen3 235B 2507 من Alibaba (المنطق) - لم يستعيد DeepSeek الصدارة.
التفكير الهجين: انتقل @deepseek_ai إلى نموذج التفكير الهجين لأول مرة - يدعم كلا من أوضاع التفكير وغير المنطقي. يحاكي انتقال DeepSeek إلى نموذج التفكير الهجين الموحد النهج الذي اتبعه OpenAI و Anthropic و Google. ومع ذلك ، من المثير للاهتمام أن نلاحظ أن Alibaba تخلت مؤخرا عن نهجها الهجين الذي فضلوه ل Qwen3 من خلال إصداراتها المنفصلة من نماذج التفكير وتوجيه Qwen3 2507.
استدعاء الوظيفة / استخدام الأداة: بينما يدعي DeepSeek تحسين استدعاء الوظيفة للنموذج ، لا يدعم DeepSeek V3.1 استدعاء الوظيفة عندما يكون في وضع التفكير. من المحتمل أن يحد هذا بشكل كبير من قدرته على دعم مهام سير العمل الوكيلة مع متطلبات الاستخبارات، بما في ذلك وكلاء الترميز.
استخدام الرمز المميز: يسجل DeepSeek V3.1 درجات أعلى بشكل متزايد في وضع التفكير من DeepSeek R1 ، ويستخدم عددا أقل قليلا من الرموز المميزة عبر الرموز التي نستخدمها لمؤشر ذكاء التحليل الاصطناعي. في الوضع غير المنطقي ، يستخدم رمزا أكثر قليلا من V3 0324 - ولكن لا يزال أقل بعدة مرات مما كان عليه في وضع التفكير الخاص به.
واجهة برمجة التطبيقات: تخدم واجهة برمجة تطبيقات الطرف الأول من DeepSeek الآن نموذج DeepSeek V3.1 الجديد على كل من نقاط نهاية الدردشة والتفكير - ببساطة تغيير ما إذا كان الرمز المميز للتفكير النهائي </think> قد تم توفيره للنموذج في قالب الدردشة للتحكم في ما إذا كان النموذج سيتفكير.
الهندسة المعمارية: DeepSeek V3.1 مطابق من الناحية المعمارية لطرازات V3 و R1 السابقة ، مع معلمات إجمالية تبلغ 671B و 37B معلمات نشطة.
الآثار: ننصح بتوخي الحذر عند وضع أي افتراضات حول ما يعنيه هذا الإصدار حول تقدم DeepSeek نحو نموذج مستقبلي يشار إليه في الشائعات باسم V4 أو R2. نلاحظ أن DeepSeek أصدرت سابقا النموذج النهائي المبني على بنية V2 الخاصة بها في 10 ديسمبر 2024 ، قبل أسبوعين فقط من إطلاق V3.


70.47K
الإعلان عن التحليل الاصطناعي لمنطق السياق الطويل (AA-LCR) ، وهو معيار جديد لتقييم أداء السياق الطويل من خلال اختبار قدرات التفكير عبر العديد من المستندات الطويلة (~ 100 ألف رمز مميز)
ينصب تركيز AA-LCR على تكرار مهام العمل والتفكير المعرفي الحقيقي ، واختبار القدرة الحاسمة لتطبيقات الذكاء الاصطناعي الحديثة التي تشمل تحليل المستندات وفهم قاعدة التعليمات البرمجية ومهام سير العمل المعقدة متعددة الخطوات.
AA-LCR عبارة عن 100 سؤال قائم على النص الثابت يتطلب التفكير عبر العديد من المستندات الواقعية التي تمثل ~ 100 ألف رمز إدخال. تم تصميم الأسئلة بحيث لا يمكن العثور على الإجابات مباشرة ولكن يجب أن تكون مسببة من مصادر معلومات متعددة ، مع التحقق من الاختبارات البشرية أن كل سؤال يتطلب استنتاجا حقيقيا بدلا من الاسترجاع.
الوجبات الجاهزة الرئيسية:
➤ تحقق النماذج الرائدة اليوم دقة ~ 70٪: تذهب المراكز الثلاثة الأولى إلى OpenAI o3 (69٪) و xAI Grok 4 (68٪) و Qwen3 235B 2507 Thinking (67٪)
➤ 👀 لدينا بالفعل نتائج gpt-oss! يعمل 120B بالقرب من o4-mini (مرتفع) ، بما يتماشى مع ادعاءات OpenAI فيما يتعلق بأداء النموذج. سنتابع قريبا بمؤشر ذكاء للنماذج.
➤ 100 سؤال قائم على النص الثابت تغطي 7 فئات من المستندات (تقارير الشركة وتقارير الصناعة والاستشارات الحكومية والأوساط الأكاديمية والمواد القانونية والتسويقية وتقارير المسح)
➤ ~ 100 ألف رمز مميز من المدخلات لكل سؤال ، مما يتطلب من النماذج دعم نافذة سياق 128 كيلو بحد أدنى للتسجيل على هذا المعيار
➤ ~ 3 ملايين إجمالي رموز الإدخال الفريدة التي تمتد على ~ 230 مستندا لتشغيل المعيار (تختلف رموز الإخراج عادة حسب الطراز)
➤ رابط إلى مجموعة البيانات على 🤗 @HuggingFace أدناه
نحن نضيف AA-LCR إلى مؤشر ذكاء التحليل الاصطناعي ، ونأخذ رقم الإصدار إلى الإصدار 2.2. يتضمن مؤشر ذكاء التحليل الاصطناعي v2.2 الآن: MMLU-Pro و GPQA Diamond و AIME 2025 و IFBench و LiveCodeBench و SciCode و AA-LCR.
يتم تحديث جميع الأرقام على الموقع الآن. اكتشف النماذج التي فهرس ذكاء التحليل الاصطناعي v2.2 👇

28.71K
أثبتت Cerebras قدرتها على استضافة MoEs كبيرة بسرعات عالية جدا هذا الأسبوع ، حيث أطلقت نقاط نهاية Qwen3 235B 2507 و Qwen3 Coder 480B ب >1,500 رمز / ثانية إخراج
➤ تقدم @CerebrasSystems الآن نقاط نهاية لكل من Qwen3 235B 2507 Reasoning and Non-reasoning. يحتوي كلا الطرازين على معلمات إجمالية تبلغ 235 ب مع 22 ب نشطة.
➤ Qwen 3 235B 2507 يقدم المنطق ذكاء مماثلا ل o4-mini (عالية) و DeepSeek R1 0528. يوفر المتغير غير المنطقي ذكاء مشابها ل Kimi K2 وأعلى بكثير من GPT-4.1 و Llama 4 Maverick.
➤ يحتوي Qwen3 Coder 480B على معلمات إجمالية تبلغ 480B مع 35B نشطة. هذا النموذج قوي بشكل خاص للترميز الوكيل ويمكن استخدامه في مجموعة متنوعة من أدوات عامل الترميز ، بما في ذلك Qwen3-Coder CLI.
تمثل عمليات إطلاق Cerebras المرة الأولى التي يتم فيها الوصول إلى هذا المستوى من الذكاء بسرعات الإخراج هذه ولديها القدرة على فتح حالات استخدام جديدة - مثل استخدام نموذج التفكير لكل خطوة من خطوات الوكيل دون الحاجة إلى الانتظار دقائق.

25.2K
🇰🇷 أطلقت LG مؤخرا EXAONE 4.0 32B - وهي تسجل 62 في مؤشر ذكاء التحليل الاصطناعي ، وهي أعلى درجة لنموذج 32B حتى الآن
تم إصدار EXAONE 4.0 من @LG_الذكاء الاصطناعي_Research في نوعين مختلفين: نموذج التفكير الهجين 32B الذي نبلغ عن نتائج المقارنة المعيارية له هنا ، ونموذج أصغر 1.2B مصمم للتطبيقات الموجودة على الجهاز التي لم نقم بقياسها بعد.
إلى جانب إصدار Upstage الأخير Solar Pro 2 ، من المثير رؤية مختبرات الذكاء الاصطناعي الكورية تنضم إلى الولايات المتحدة والصين بالقرب من قمة مخططات الاستخبارات.
النتائج الرئيسية:
➤ 🧠 EXAONE 4.0 32B (التفكير): في وضع التفكير ، يسجل EXAONE 4.0 62 في مؤشر ذكاء التحليل الاصطناعي. يتطابق هذا مع Claude 4 Opus و Llama Nemotron Super 49B v1.5 الجديد من NVIDIA ، ويجلس بفارق نقطة واحدة فقط خلف Gemini 2.5 Flash
➤ ⚡ EXAONE 4.0 32B (غير منطقي): في الوضع غير المنطقي ، يسجل EXAONE 4.0 51 في مؤشر ذكاء التحليل الاصطناعي. إنه يتطابق مع Llama 4 Maverick في الذكاء على الرغم من وجود معلمات إجمالية ~ 1/4 فقط (على الرغم من أن لديها ~ 2x المعلمات النشطة)
➤ ⚙️ رموز الإخراج والإسهاب: في وضع التفكير ، استخدم EXAONE 4.0 100 مليون رمز إخراج لمؤشر ذكاء التحليل الاصطناعي. هذا أعلى من بعض النماذج الحدودية الأخرى ، ولكنه يتماشى مع الاتجاهات الحديثة لنماذج التفكير باستخدام المزيد من رموز الإخراج "للتفكير أكثر" - على غرار Llama Nemotron Super 49B v1.5 و Grok 4 و Qwen3 235B 2507 Reasoning. في الوضع غير المنطقي ، استخدم EXAONE 4.0 15 مليون رمز مميز - مرتفع لغير منطقي ، ولكن ليس بارتفاع 30 مليون في Kimi K2.
التفاصيل الرئيسية:
➤ التفكير الهجين: يوفر النموذج الاختيارية بين وضع "التفكير" ووضع "عدم المنطق"
➤ التوفر: تستضيفه @friendliai حاليا ، وبأسعار تنافسية (خاصة بالمقارنة مع خيارات الملكية) بواسطة FriendliAI بسعر 1 دولار لكل 1 مليون رمز إدخال وإخراج
➤ الأوزان المفتوحة: EXAONE 4.0 هو نموذج أوزان مفتوح متاح بموجب اتفاقية ترخيص نموذج الذكاء الاصطناعي EXAONE 1.2. يحد الترخيص من الاستخدام التجاري.
➤ تعدد الوسائط: إدخال وإخراج النص فقط
➤ نافذة السياق: 131 ألف رمز مميز
➤ المعلمات: 32B المعلمات النشطة والإجمالية ، متوفرة بدقة 16 بت و 8 بت (يعني أنه يمكن تشغيل النموذج على شريحة H100 واحدة بدقة كاملة)

41.56K
الإعلان عن لوحة المتصدرين في ساحة موسيقى التحليل الاصطناعي: مع >5 آلاف صوت ، يعد Suno v4.5 هو نموذج جيل الموسيقى الرائد متبوعا ب Riffusion's FUZZ-1.1 Pro.
تحتل Lyria 2 من Google المركز الثالث في لوحة المتصدرين الآلية، ويحتل الإصدار 1.5 Allegro من Udio المركز الثالث في لوحة المتصدرين في الغناء.
لوحة المتصدرين الآلية هي كما يلي:
🥇 @SunoMusic V4.5
🥈 @riffusionai FUZZ-1.1 Pro
🥉 @GoogleDeepMind ليريا 2
@udiomusic v1.5 أليجرو
@StabilityAI صوت مستقر 2.0
@metaai MusicGen
تستند التصنيفات إلى أصوات المجتمع عبر مجموعة متنوعة من الأنواع والمطالبات. هل تريد أن ترى موجه الخاص بك مميزا؟ يمكنك إرسال مطالبات في الساحة اليوم.
👇 انظر أدناه للحصول على لوحة المتصدرين الغناء ورابط المشاركة!

22.18K
تغيير الطلب في النموذج من 2024 إلى 2025: حققت Google (+ 49 نقطة) و DeepSeek (+ 53 نقطة) و xAI (+ 31 نقطة) مكاسب هائلة في حصة الطلب خلال العام الماضي
لقد تحولت @Google من كونها متخلفة الذكاء الاصطناعي إلى رائدة الذكاء الاصطناعي مع زيادة ~ 2.5 مرة في نسبة المستجيبين الذين يستخدمون أو يفكرون في سلسلة طرازات الجوزاء. كان المحرك الرئيسي لذلك هو تحقيق Google مكاسب كبيرة في مجال الذكاء: يقع Gemini 2.5 Pro الآن في # 3 في مؤشر ذكاء التحليل الاصطناعي الخاص بنا ، مقارنة بالتخلف بشكل كبير عن OpenAI و Anthropic في أوائل عام 2024.
أصدرت @deepseek_ai في النصف الأول من عام 2024 DeepSeek 67B فقط ، وهو نموذج شهد اعتمادا محدودا وأداء ضعيفا Llama 3 70B. شهدت DeepSeek لأول مرة بعض الإقبال في أواخر عام 2024 مع إصدارات طراز V2 الخاص بها ، ثم شهدت اعتمادا سريعا في أوائل عام 2025 مع طرازي V3 و R1 التي أخذتهم إلى القيادة بين طرازات الأوزان المفتوحة.
أصدرت @xai طرازها الأول Grok-1 في منتصف النصف الأول من عام 2024 ومنذ ذلك الحين صعدت بسرعة إلى قيادة الاستخبارات عبر جميع الموديلات مع إصدارات متتالية ، وبلغت ذروتها في إطلاق Grok 4 الأسبوع الماضي.
المصدر: مسح اعتماد الذكاء الاصطناعي للتحليل الاصطناعي للنصف الأول من عام 2025 (التقرير متاح على موقع التحليل الاصطناعي)

389.03K
مزودو Kimi K2: تقدم Groq Kimi K2 بسعر >400 رمز / ثانية إخراج ، أسرع 40 مرة من واجهة برمجة تطبيقات الطرف الأول من Moonshot
تهانينا لعدد من مقدمي الخدمة على السرعة في إطلاق واجهات برمجة التطبيقات ل Kimi K2 ، بما في ذلك @GroqInc و @basetenco و @togethercompute و @FireworksAI_HQ و @parasail_io و @novita_labs و @DeepInfra وبالطبع @Kimi_Moonshot. هذا مثير للإعجاب بالنظر إلى حجم النموذج عند 1 تريليون معلمة إجمالية.
تتميز Groq بالسرعة الفائقة. تتميز DeepInfra و Novita و Baseten بأسعارها ، كونها المزودين الوحيدين الذين يسعرون بشكل مشابه أو أرخص من واجهة برمجة تطبيقات الطرف الأول من Moonshot.
انظر أدناه لمزيد من المقارنات بين مقدمي الخدمات. نتوقع زيادات سريعة في السرعة عبر بعض مقدمي الخدمات حيث تعمل الفرق على تحسين نموذج K2 - تظهر أرقامنا أدناه متوسط السرعات على مدار ال 72 ساعة الماضية ولكننا نشهد بالفعل قفزة DeepInfra إلى 62 رمزا / ثانية في قياسات اليوم

52.3K
في حين أن Kimi k2 من Moonshot الذكاء الاصطناعي هو النموذج الرائد غير المنطقي للأوزان المفتوحة في مؤشر ذكاء التحليل الاصطناعي ، إلا أنه ينتج ~ 3 أضعاف الرموز المميزة أكثر من النماذج غير المنطقية الأخرى ، مما يطمس الخطوط الفاصلة بين التفكير وعدم المنطق
Kimi k2 هو أكبر نموذج رئيسي للأوزان المفتوحة حتى الآن - معلمات إجمالية 1T مع 32B نشطة (يتطلب ذلك ذاكرة ضخمة تبلغ 1 تيرابايت في FP8 الأصلي لحمل الأوزان). لدينا k2 في 57 في مؤشر ذكاء التحليل الاصطناعي ، وهي درجة رائعة تضعه فوق نماذج مثل GPT-4.1 و DeepSeek V3 ، ولكن خلف نماذج التفكير الرائدة.
حتى الآن ، كان هناك تمييز واضح بين نموذج التفكير والنماذج غير المنطقية في evals لدينا - يتم تحديده ليس فقط من خلال ما إذا كان النموذج يستخدم <reasoning> العلامات ، ولكن في المقام الأول من خلال استخدام الرمز المميز. متوسط عدد الرموز المميزة المستخدمة للإجابة على جميع الرموز في مؤشر ذكاء التحليل الاصطناعي هو ~ 10 مرات أعلى لنماذج التفكير مقارنة بالنماذج غير المنطقية.
يستخدم Kimi k2 الخاص ب @Kimi_Moonshot ~ 3 أضعاف عدد الرموز التي يستخدمها النموذج المتوسط غير المنطقي. استخدام الرمز المميز أقل بنسبة تصل إلى 30٪ فقط من Claude 4 Sonnet و Opus عند تشغيله في وضع التفكير الممتد للميزانية القصوى ، وهو ما يقرب من ثلاثة أضعاف استخدام الرمز المميز لكل من Claude 4 Sonnet و Opus مع إيقاف تشغيل المنطق.
لذلك نوصي بمقارنة Kimi k2 ب Claude 4 Sonnet و Opus في أوضاع التفكير الممتدة ذات الميزانية القصوى ، وليس بدرجات غير منطقية لطرازات Claude 4.
يتوفر Kimi k2 على واجهة برمجة تطبيقات الطرف الأول من @Kimi_Moonshot بالإضافة إلى @FireworksAI_HQ و @togethercompute و @novita_labs و @parasail_io.
انظر أدناه وعلى التحليل الاصطناعي لمزيد من التحليل 👇



60.62K
تكلف واجهة برمجة تطبيقات البحث العميق الجديدة من OpenAI ما يصل إلى ~ 30 دولارا لكل مكالمة واجهة برمجة التطبيقات! قد تكون نقاط نهاية واجهة برمجة تطبيقات البحث العميق الجديدة هذه هي الطريقة الجديدة الأسرع لإنفاق الأموال
عبر 10 استعلامات اختبار بحثية عميقة ، أنفقنا 100 دولار على o3 و 9.18 دولار على o4-mini. كيف تصبح التكاليف كبيرة جدا؟ ارتفاع الأسعار وملايين الرموز المميزة.
نقاط النهاية هذه هي إصدارات من o3 و o4-mini تم تطويرها RL'd لمهام البحث العميقة. يسمح التوفر عبر واجهة برمجة التطبيقات باستخدامها مع كل من أداة البحث على الويب الخاصة ب OpenAI ومصادر البيانات المخصصة عبر خوادم MCP البعيدة.
تسعير O4-mini-deep-Research أقل بمقدار 5 أضعاف من تسعير O3-Deep-Research. في استعلامات الاختبار الخاصة بنا ، يبدو أن o4-mini يستخدم أيضا عددا أقل من الرموز المميزة - فقد جاء بأكثر من 10 مرات في المجموع عبر 10 استعلامات اختبار.
التسعير:
➤ يتم تسعير O3-deep-research بسعر 10 دولارات / مليون إدخال (2.50 دولار مدخل مخزن مؤقتا) ، 40 دولارا / مخرج
➤ يتم تسعير O4-mini-deep-research بسعر 2 دولار / مليون إدخال (0.5 دولار مدخل مخزن مؤقتا) ، 8 دولارات / مخرج
تعد نقاط النهاية هذه أغلى بكثير من نقاط النهاية القياسية o3 و o4-mini من OpenAI - وتلك في:
➤ o3: إدخال 2 دولار / م (0.5 دولار مخزن مؤقتا) ، إخراج 8 دولارات / م ل o3
➤ O4-Mini: إدخال 1.1 دولار / م (0.275 مخزن مؤقتا) ، إخراج 4.4 دولار / م

37.33K
الأفضل
المُتصدِّرة
التطبيقات المفضلة
رائج على السلسة
رائج على منصة X
أهم عمليات التمويل الأخيرة
الأبرز