Kimi-K2.5 عبر KTransformers+SGLang على إعدادات تفريغ هجينة بين بطاقة الرسوميات/المعالج المركزي: 4x RTX Pro 6000 Blackwells + 640GB RAM كان الأساس الأصلي على 8 وحدات معالجة رسومات تستخدم عبء عمل على نمط وكيل ترميز صناعي يستهدف 2000-45 ألف رمز إدخال، و80-3 آلاف رمز إخراج كحد أقصى، مع ما يصل إلى 10 طلبات متزامنة. أعيد تشغيله على نظام الهجين الجديد أفضل ما استطعت الحصول عليه: - 23.03 رموز إخراج في الثانية @ 10 طلبات متزامنة - متوسط TTFT: ~الستينيات - متوسط TTFT: ~64 ثانية النتائج الأساسية: - 74.39 رموز إخراج في الثانية @ 10 طلبات متزامنة - متوسط TTFT: ~9 - متوسط TTFT: ~3.7 ثانية
Yannick Nick
Yannick Nick‏26 فبراير 2026
Initial tests for Kimi-K2.5 via KTransformers+SGLang, on a hybrid 4x RTX Pro 6000 Blackwell + 640GB/1.5TB CPU memory offload. Compute provided by Lium pods: - 19.97 output tok/s @ 10 concurrent requests - Mean TTFT: ~120s - Median TTFT: ~102s Need to play with the KT flags to further optimize this setup, which is heavily dependent on the overall system's CPU core count & available RAM. GPU <-> PCIe <-> RAM interconnectivity is the most obvious bottleneck Experts per MoE Layer on GPU: --kt-num-gpu-experts=128 CPU cores dedicated to MoE inference: --kt-cpuinfer=104 CPU experts work overlapping GPU work: --kt-max-deferred-experts-per-token=2 Max tokens per prefill chunk: --chunked-prefill-size=32658 CUDA graph capture disabled: --disable-cuda-graph
القيادة الكاملة: التصدير CUDA_VISIBLE_DEVICES=0,1,2,3 التصدير OMP_NUM_THREADS=1 تصدير MKL_NUM_THREADS=1 تصدير OPENBLAS_NUM_THREADS=1 تصدير NUMEXPR_NUM_THREADS=1 تصدير VECLIB_MAXIMUM_THREADS=1 تصدير PYTHONUNBUFFERED=1 Execut Python -M sglang.launch_server \ --model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c555efa2f \ --kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-threadpool-count 1 \ --طريقة kt RAWINT4 \ --trust-remote-code \ --الموديل-اسم الخدمة kimi_k2 \ --tool-call-parser kimi_k2 \ --محلل الاستدلال kimi_k2 \ --disable-radix-cache \ --disable-chunked-prefix-cache \ --حجم موتر-متوازي 4 \ --تمكين p2p-check \ --تعطيل الخبراء المشتركين-اندماج \ --disable-cuda-graph \ --المضيف 0.0.0.0 \ --المنفذ 8000 \ --KT-cpuinfer 32 \ --KT-NUM-GPU-EXPERTS 128 \ --KT-max-deferred-experts-per-token 2 \ --kt-gpu-prefill-token-threshold 1024 \ --زي استراتيجية التعيين الخبير \ --ميم-كسر-ثابت 0.92 \ --enable-mixed-chunk \ --حجم تعبئة مقطع 32658 \ --أقصى مجموع-رموز 200000 \ --انتباه-خلفية فلاشفر
‏‎102‏