المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أود أن أشير إلى أنه بالنسبة لمهام العالم الحقيقي (وليس المعايير) ، يتفوق Kimi K2 على الجوزاء.
هذا هو القياس عن بعد عبر جميع مستخدمي @cline ، ويظهر معدل فشل التحرير المختلف. لاحظ كيف أن معدل فشل Kimi يبلغ حوالي 6٪ ، وهو أفضل بكثير من معدل خطأ الجوزاء ~ 10٪.
من اللافت للنظر أن كيمي تجاوز كلود 4 لمعظم هذا الأسبوع ، محققا معدل فشل أقل من 4٪!

في معيار تحرير الفرق "الصعب" الداخلي الخاص بنا للحالات التي فشل فيها نموذج حدودي سابقا في تحرير الفرق (قبل تحديثات خوارزمية الفرق الخاصة بنا) ، تجاوز Kimi Claude 3.5.
سيكون من المثير للاهتمام رؤية النتائج من معايير "صعوبة الكابوس" في الأسابيع القليلة المقبلة.

161.35K
الأفضل
المُتصدِّرة
التطبيقات المفضلة