الاختبارات الأولية ل Kimi-K2.5 عبر KTransformers+SGLang، على بطاقة تفريغ ذاكرة معالج هجينة 4x RTX Pro 6000 + ذاكرة معالج 640GB/1.5TB. الحساب مقدم من كبسولات Lium: - 19.97 TOK/s من الخارج @ 10 طلبات متزامنة - متوسط TTFT: ~120 ثانية - متوسط TTFT: ~102 أحتاج إلى تجربة علامات KT لتحسين هذا الإعداد بشكل أكبر، والذي يعتمد بشكل كبير على عدد أنوية المعالج وذاكرة الوصول العشوائي المتاحة للنظام بشكل عام. ترابط ذاكرة الذاكرة <-> PCIe <-> هو أوضح عنق زجاجة الخبراء حسب طبقة MoE على وحدة معالجة الرسومات: --kt-num-gpu-experts=128 أنوية المعالج المخصصة لاستنتاج MoE: --kt-cpuinfer=104 خبراء المعالج يعملون مع تداخل مع عمل وحدة معالجة الرسوميات: --kt-max-deferred-experts-per-token=2 الحد الأقصى للرموز لكل جزء من التعبئة المسبقة: --حجم تعبئة مقطع=32658 تم تعطيل التقاط رسم بياني CUDA: --disable-cuda-graph
Yannick Nick
Yannick Nick‏25 فبراير 2026
تشغيل Kimi-K2.5 على 8 معالجات RTX Pro 6000 Blackwells، مع خطط لاختبار إعداد استدلالي هجين بين المعالج المركزي/وحدة معالجة الرسومات عبر KTransformers+SGLang على 4 وحدات معالجة نفس المعالجات أنا فضولي جدا لمعرفة الأداء العام مع نظام الهجين مقارنة بتركيب Kimi-K2.5 الكمي عبر وحدات معالجة الرسوميات الأربعة. سيحتاج النظام الهجين إلى حوالي 768 جيجابايت من الذاكرة العشوائية للبدء، إليك خط أساس عبر 8 وحدات معالجة رسومات باستخدام عبء عمل على نمط وكيل ترميز صناعي يستهدف 2000-45 ألف رمز إدخال، و80-3 آلاف رمز إخراج كحد أقصى، مع ما يصل إلى 10 طلبات متزامنة. علم --mem-fraction-static في SGLang مضبوط على 0.90 متوسط معدل النقل الأساسي: ~74 رمز/ثانية @ 10 طلبات متزامنة
أعلام KTransformers+SGLang لإعادة إنتاج الأعمال: ========== التصدير CUDA_VISIBLE_DEVICES=0,1,2,3 التصدير OMP_NUM_THREADS=1 تصدير MKL_NUM_THREADS=1 تصدير OPENBLAS_NUM_THREADS=1 تصدير NUMEXPR_NUM_THREADS=1 تصدير VECLIB_MAXIMUM_THREADS=1 بايثون -م sglang.launch_server \ --المسار <HF_PATH>النموذجي /النماذج--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --KT-cpuinfer 104 \ --kt-threadpool-count 2 \ --KT-NUM-GPU-EXPERTS 128 \ --KT-max-deferred-experts-per-token 2 \ --طريقة kt RAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --زي استراتيجية التعيين الخبير \ --trust-remote-code \ --ميم-كسر-ثابت 0.90 \ --الموديل-اسم الخدمة kimi_k2 \ --tool-call-parser kimi_k2 \ --محلل الاستدلال kimi_k2 \ --disable-radix-cache \ --disable-chunked-prefix-cache \ --enable-mixed-chunk \ --حجم موتر-متوازي 4 \ --تمكين p2p-check \ --تعطيل الخبراء المشتركين-اندماج \ --حجم تعبئة مقطع 32658 \ --أقصى إجمالي للرموز 120000 \ --انتباه-خلفية فلاش \ --disable-cuda-graph \ --المضيف 0.0.0.0 \ --المنفذ 8000
‏‎124‏