تشغيل Kimi-K2.5 على 8 معالجات RTX Pro 6000 Blackwells، مع خطط لاختبار إعداد استدلالي هجين بين المعالج المركزي/وحدة معالجة الرسومات عبر KTransformers+SGLang على 4 وحدات معالجة نفس المعالجات أنا فضولي جدا لمعرفة الأداء العام مع نظام الهجين مقارنة بتركيب Kimi-K2.5 الكمي عبر وحدات معالجة الرسوميات الأربعة. سيحتاج النظام الهجين إلى حوالي 768 جيجابايت من الذاكرة العشوائية للبدء، إليك خط أساس عبر 8 وحدات معالجة رسومات باستخدام عبء عمل على نمط وكيل ترميز صناعي يستهدف 2000-45 ألف رمز إدخال، و80-3 آلاف رمز إخراج كحد أقصى، مع ما يصل إلى 10 طلبات متزامنة. علم --mem-fraction-static في SGLang مضبوط على 0.90 متوسط معدل النقل الأساسي: ~74 رمز/ثانية @ 10 طلبات متزامنة