المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 عبر KTransformers+SGLang على إعدادات تفريغ هجينة بين بطاقة الرسوميات/المعالج المركزي: 4x RTX Pro 6000 Blackwells + 640GB RAM
كان الأساس الأصلي على 8 وحدات معالجة رسومات تستخدم عبء عمل على نمط وكيل ترميز صناعي يستهدف 2000-45 ألف رمز إدخال، و80-3 آلاف رمز إخراج كحد أقصى، مع ما يصل إلى 10 طلبات متزامنة. أعيد تشغيله على نظام الهجين الجديد
أفضل ما استطعت الحصول عليه:
- 23.03 رموز إخراج في الثانية @ 10 طلبات متزامنة
- متوسط TTFT: ~الستينيات
- متوسط TTFT: ~64 ثانية
النتائج الأساسية:
- 74.39 رموز إخراج في الثانية @ 10 طلبات متزامنة
- متوسط TTFT: ~9
- متوسط TTFT: ~3.7 ثانية


26 فبراير 2026
Initial tests for Kimi-K2.5 via KTransformers+SGLang, on a hybrid 4x RTX Pro 6000 Blackwell + 640GB/1.5TB CPU memory offload. Compute provided by Lium pods:
- 19.97 output tok/s @ 10 concurrent requests
- Mean TTFT: ~120s
- Median TTFT: ~102s
Need to play with the KT flags to further optimize this setup, which is heavily dependent on the overall system's CPU core count & available RAM. GPU <-> PCIe <-> RAM interconnectivity is the most obvious bottleneck
Experts per MoE Layer on GPU:
--kt-num-gpu-experts=128
CPU cores dedicated to MoE inference:
--kt-cpuinfer=104
CPU experts work overlapping GPU work:
--kt-max-deferred-experts-per-token=2
Max tokens per prefill chunk:
--chunked-prefill-size=32658
CUDA graph capture disabled:
--disable-cuda-graph

القيادة الكاملة:
التصدير CUDA_VISIBLE_DEVICES=0,1,2,3
التصدير OMP_NUM_THREADS=1
تصدير MKL_NUM_THREADS=1
تصدير OPENBLAS_NUM_THREADS=1
تصدير NUMEXPR_NUM_THREADS=1
تصدير VECLIB_MAXIMUM_THREADS=1
تصدير PYTHONUNBUFFERED=1
Execut Python -M sglang.launch_server \
--model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c555efa2f \
--kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-threadpool-count 1 \
--طريقة kt RAWINT4 \
--trust-remote-code \
--الموديل-اسم الخدمة kimi_k2 \
--tool-call-parser kimi_k2 \
--محلل الاستدلال kimi_k2 \
--disable-radix-cache \
--disable-chunked-prefix-cache \
--حجم موتر-متوازي 4 \
--تمكين p2p-check \
--تعطيل الخبراء المشتركين-اندماج \
--disable-cuda-graph \
--المضيف 0.0.0.0 \
--المنفذ 8000 \
--KT-cpuinfer 32 \
--KT-NUM-GPU-EXPERTS 128 \
--KT-max-deferred-experts-per-token 2 \
--kt-gpu-prefill-token-threshold 1024 \
--زي استراتيجية التعيين الخبير \
--ميم-كسر-ثابت 0.92 \
--enable-mixed-chunk \
--حجم تعبئة مقطع 32658 \
--أقصى مجموع-رموز 200000 \
--انتباه-خلفية فلاشفر
102
الأفضل
المُتصدِّرة
التطبيقات المفضلة