متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب | محفظة OKX

المواضيع الرائجة

أود أن أشير إلى أنه بالنسبة لمهام العالم الحقيقي (وليس المعايير) ، يتفوق Kimi K2 على الجوزاء. هذا هو القياس عن بعد عبر جميع مستخدمي @cline ، ويظهر معدل فشل التحرير المختلف. لاحظ كيف أن معدل فشل Kimi يبلغ حوالي 6٪ ، وهو أفضل بكثير من معدل خطأ الجوزاء ~ 10٪. من اللافت للنظر أن كيمي تجاوز كلود 4 لمعظم هذا الأسبوع ، محققا معدل فشل أقل من 4٪!

في معيار تحرير الفرق "الصعب" الداخلي الخاص بنا للحالات التي فشل فيها نموذج حدودي سابقا في تحرير الفرق (قبل تحديثات خوارزمية الفرق الخاصة بنا) ، تجاوز Kimi Claude 3.5. سيكون من المثير للاهتمام رؤية النتائج من معايير "صعوبة الكابوس" في الأسابيع القليلة المقبلة.

‏‎161.36‏K

الأفضل

المُتصدِّرة

التطبيقات المفضلة

رائج على السلسة

رائج على منصة X

أهم عمليات التمويل الأخيرة

الأبرز