Kimi-K2.5, KTransformers+SGLang ile hibrit GPU/CPU bellek boşaltma yapılandırmasında: 4x RTX Pro 6000 Blackwells + 640GB RAM Orijinal temel, 2k-45k giriş tokenları, 80-3k maksimum çıkış tokenları ve 10 eşzamanlı isteğe sahip sentetik kodlama ajanı tarzı iş yükü kullanan 8x GPU'larda kullanılıyordu. Yeni hibrit kurulumda yeniden çalıştırıldı Elimden gelenler: - 23.03 Çıkış token/s @ 10 eşzamanlı istek - Ortalama TTFT: ~60'lar - Medyan TTFT: ~64s Temel sonuçlar: - 74.39 Çıkış token/s @ 10 eşzamanlı istek - Ortalama TTFT: ~9s - Medyan TTFT: ~3.7s
Yannick Nick
Yannick Nick26 Şub 2026
Initial tests for Kimi-K2.5 via KTransformers+SGLang, on a hybrid 4x RTX Pro 6000 Blackwell + 640GB/1.5TB CPU memory offload. Compute provided by Lium pods: - 19.97 output tok/s @ 10 concurrent requests - Mean TTFT: ~120s - Median TTFT: ~102s Need to play with the KT flags to further optimize this setup, which is heavily dependent on the overall system's CPU core count & available RAM. GPU <-> PCIe <-> RAM interconnectivity is the most obvious bottleneck Experts per MoE Layer on GPU: --kt-num-gpu-experts=128 CPU cores dedicated to MoE inference: --kt-cpuinfer=104 CPU experts work overlapping GPU work: --kt-max-deferred-experts-per-token=2 Max tokens per prefill chunk: --chunked-prefill-size=32658 CUDA graph capture disabled: --disable-cuda-graph
Tam komut: ihracat CUDA_VISIBLE_DEVICES=0,1,2,3 ihracat OMP_NUM_THREADS=1 ihracat MKL_NUM_THREADS=1 ihracat OPENBLAS_NUM_THREADS=1 ihracat NUMEXPR_NUM_THREADS=1 ihracat VECLIB_MAXIMUM_THREADS=1 export PYTHONUNBUFFERED=1 exec python -m sglang.launch_server \ --model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a13317541112fb9e3410c55efa2f \ --kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a13317541112fb9e3410c55efa2f \ --kt-threadpool-count 1 \ --kt-yöntemi RAWINT4 \ --güven-uzaktan kod \ --servis edilen model-adı kimi_k2 \ --alet-çağrı-ayrıştırıcı kimi_k2 \ --mantık ayrıştırıcı kimi_k2 \ --radix-cache devre dışı bırak \ --devre dışı bırak-chunked-prefix-cache \ --tensor-paralel-boyut 4 \ --etkinleştir-p2p-kontrol \ --devre dışı bırakmak-paylaşılan-uzman-füzyon \ --devre dışı bırakmak-cuda-grafiği \ --host 0.0.0.0 \ --port 8000 \ --kt-cpuinfer 32 \ --kt-num-gpu-uzmanlar 128 \ --kt-max-ertelenmiş-uzmanlar-token-başına 2 \ --kt-gpu-prefill-token-threshold 1024 \ --kt-uzman-yerleştirme-stratejisi üniforması \ --mem-fraksiyon-statik 0.92 \ --karışık-parçayı etkinleştir \ --parçalı ön doldurma boyutu 32658 \ --max-total-token 200000 \ --dikkat-arka uç flashinfer
108