Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5, KTransformers+SGLang ile hibrit GPU/CPU bellek boşaltma yapılandırmasında: 4x RTX Pro 6000 Blackwells + 640GB RAM
Orijinal temel, 2k-45k giriş tokenları, 80-3k maksimum çıkış tokenları ve 10 eşzamanlı isteğe sahip sentetik kodlama ajanı tarzı iş yükü kullanan 8x GPU'larda kullanılıyordu. Yeni hibrit kurulumda yeniden çalıştırıldı
Elimden gelenler:
- 23.03 Çıkış token/s @ 10 eşzamanlı istek
- Ortalama TTFT: ~60'lar
- Medyan TTFT: ~64s
Temel sonuçlar:
- 74.39 Çıkış token/s @ 10 eşzamanlı istek
- Ortalama TTFT: ~9s
- Medyan TTFT: ~3.7s


26 Şub 2026
Initial tests for Kimi-K2.5 via KTransformers+SGLang, on a hybrid 4x RTX Pro 6000 Blackwell + 640GB/1.5TB CPU memory offload. Compute provided by Lium pods:
- 19.97 output tok/s @ 10 concurrent requests
- Mean TTFT: ~120s
- Median TTFT: ~102s
Need to play with the KT flags to further optimize this setup, which is heavily dependent on the overall system's CPU core count & available RAM. GPU <-> PCIe <-> RAM interconnectivity is the most obvious bottleneck
Experts per MoE Layer on GPU:
--kt-num-gpu-experts=128
CPU cores dedicated to MoE inference:
--kt-cpuinfer=104
CPU experts work overlapping GPU work:
--kt-max-deferred-experts-per-token=2
Max tokens per prefill chunk:
--chunked-prefill-size=32658
CUDA graph capture disabled:
--disable-cuda-graph

Tam komut:
ihracat CUDA_VISIBLE_DEVICES=0,1,2,3
ihracat OMP_NUM_THREADS=1
ihracat MKL_NUM_THREADS=1
ihracat OPENBLAS_NUM_THREADS=1
ihracat NUMEXPR_NUM_THREADS=1
ihracat VECLIB_MAXIMUM_THREADS=1
export PYTHONUNBUFFERED=1
exec python -m sglang.launch_server \
--model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a13317541112fb9e3410c55efa2f \
--kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a13317541112fb9e3410c55efa2f \
--kt-threadpool-count 1 \
--kt-yöntemi RAWINT4 \
--güven-uzaktan kod \
--servis edilen model-adı kimi_k2 \
--alet-çağrı-ayrıştırıcı kimi_k2 \
--mantık ayrıştırıcı kimi_k2 \
--radix-cache devre dışı bırak \
--devre dışı bırak-chunked-prefix-cache \
--tensor-paralel-boyut 4 \
--etkinleştir-p2p-kontrol \
--devre dışı bırakmak-paylaşılan-uzman-füzyon \
--devre dışı bırakmak-cuda-grafiği \
--host 0.0.0.0 \
--port 8000 \
--kt-cpuinfer 32 \
--kt-num-gpu-uzmanlar 128 \
--kt-max-ertelenmiş-uzmanlar-token-başına 2 \
--kt-gpu-prefill-token-threshold 1024 \
--kt-uzman-yerleştirme-stratejisi üniforması \
--mem-fraksiyon-statik 0.92 \
--karışık-parçayı etkinleştir \
--parçalı ön doldurma boyutu 32658 \
--max-total-token 200000 \
--dikkat-arka uç flashinfer
108
En İyiler
Sıralama
Takip Listesi