Testes iniciais para Kimi-K2.5 via KTransformers+SGLang, em um híbrido 4x RTX Pro 6000 Blackwell + 640GB/1.5TB de memória CPU offload. Computação fornecida pelos pods Lium: - 19.97 tok/s de saída @ 10 requisições simultâneas - TTFT médio: ~120s - TTFT mediano: ~102s Preciso brincar com as flags KT para otimizar ainda mais esta configuração, que depende fortemente da contagem total de núcleos de CPU do sistema e da RAM disponível. A interconectividade GPU <-> PCIe <-> RAM é o gargalo mais óbvio Especialistas por camada MoE na GPU: --kt-num-gpu-experts=128 Núcleos de CPU dedicados à inferência MoE: --kt-cpuinfer=104 Especialistas de CPU trabalham sobrepondo o trabalho da GPU: --kt-max-deferred-experts-per-token=2 Máximo de tokens por chunk de pré-preenchimento: --chunked-prefill-size=32658 Captura de gráfico CUDA desativada: --disable-cuda-graph
Yannick Nick
Yannick Nick25/02/2026
Executando Kimi-K2.5 em 8x RTX Pro 6000 Blackwells, com planos de eventualmente testar uma configuração de inferência híbrida CPU/GPU através do KTransformers+SGLang em 4x das mesmas GPUs Estou muito curioso para avaliar o desempenho geral com a configuração híbrida em comparação com um ajuste quantizado do Kimi-K2.5 em 4 GPUs. A configuração híbrida precisará de cerca de 768GB de RAM Para começar, aqui está uma linha de base em 8x GPUs usando uma carga de trabalho de estilo agente de codificação sintética, visando 2k-45k tokens de entrada, 80-3k tokens de saída máximos, e com até 10 solicitações simultâneas. A flag --mem-fraction-static do SGLang está definida para 0.90 Taxa de transferência média da linha de base: ~74 tokens de saída/s @ 10 solicitações simultâneas
KTransformers+SGLang flags para reproduzir o trabalho: ========== export CUDA_VISIBLE_DEVICES=0,1,2,3 export OMP_NUM_THREADS=1 export MKL_NUM_THREADS=1 export OPENBLAS_NUM_THREADS=1 export NUMEXPR_NUM_THREADS=1 export VECLIB_MAXIMUM_THREADS=1 python -m sglang.launch_server \ --model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-cpuinfer 104 \ --kt-threadpool-count 2 \ --kt-num-gpu-experts 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-method RAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --kt-expert-placement-strategy uniform \ --trust-remote-code \ --mem-fraction-static 0.90 \ --served-model-name kimi_k2 \ --tool-call-parser kimi_k2 \ --reasoning-parser kimi_k2 \ --disable-radix-cache \ --disable-chunked-prefix-cache \ --enable-mixed-chunk \ --tensor-parallel-size 4 \ --enable-p2p-check \ --disable-shared-experts-fusion \ --chunked-prefill-size 32658 \ --max-total-tokens 120000 \ --attention-backend flashinfer \ --disable-cuda-graph \ --host 0.0.0.0 \ --port 8000
131