أود أن أشير إلى أنه بالنسبة لمهام العالم الحقيقي (وليس المعايير) ، يتفوق Kimi K2 على الجوزاء. هذا هو القياس عن بعد عبر جميع مستخدمي @cline ، ويظهر معدل فشل التحرير المختلف. لاحظ كيف أن معدل فشل Kimi يبلغ حوالي 6٪ ، وهو أفضل بكثير من معدل خطأ الجوزاء ~ 10٪. من اللافت للنظر أن كيمي تجاوز كلود 4 لمعظم هذا الأسبوع ، محققا معدل فشل أقل من 4٪!
Paul Gauthier
Paul Gauthier‏18 يوليو، 19:09
سجل Kimi K2 59٪ على معيار ترميز مساعد متعدد اللغات. لوحة المتصدرين الكاملة:
في معيار تحرير الفرق "الصعب" الداخلي الخاص بنا للحالات التي فشل فيها نموذج حدودي سابقا في تحرير الفرق (قبل تحديثات خوارزمية الفرق الخاصة بنا) ، تجاوز Kimi Claude 3.5. سيكون من المثير للاهتمام رؤية النتائج من معايير "صعوبة الكابوس" في الأسابيع القليلة المقبلة.
‏‎161.35‏K