Kimi-K2.5 via KTransformers+SGLang em uma configuração híbrida de GPU/CPU com descarregamento de memória: 4x RTX Pro 6000 Blackwells + 640GB de RAM A base original era em 8x GPUs usando uma carga de trabalho no estilo agente de codificação sintética, com alvo de tokens de entrada de 2k-45k, tokens de saída máximo de 80-3k, e com até 10 requisições simultâneas. Reexecutado na nova configuração híbrida O melhor que consegui: - 23,03 tokens/s de saída @ 10 requisições concorrentes - Média de TTFT: ~60s - Média de tempo de tempo: ~64s Resultados iniciais: - 74,39 tokens/s de saída @ 10 requisições concorrentes - Média de TTFT: ~9s - Mediana TTFT: ~3,7s
Yannick Nick
Yannick Nick26 de fev. de 2026
Testes iniciais para Kimi-K2.5 via KTransformers+SGLang, em um Blackwell híbrido 4x RTX Pro 6000 + 640GB/1,5TB de memória de CPU. Computação fornecida pelos pods de Lium: - 19,97 saída tok/s @ 10 requisições concorrentes - Média de TTFT: ~120s - Média de tempo de tempo: ~102s É preciso mexer nas flags KT para otimizar ainda mais essa configuração, que depende muito do número total de núcleos de CPU do sistema e da RAM disponível. A interconectividade da RAM <-> PCIe <-> da GPU é o gargalo mais óbvio Especialistas por camada MoE na GPU: --kt-num-gpu-experts=128 Núcleos de CPU dedicados à inferência MoE: --kt-cpuinfer=104 Especialistas em CPU trabalham sobrepostos com GPU: --kt-max-deferred-experts-per-token=2 Fichas máximas por bloco pré-preenchido: --chunked-pré-fill-size=32658 Captura de grafos CUDA desativada: --desabilitar-cuda-grafo
Comando completo: exportação CUDA_VISIBLE_DEVICES=0,1,2,3 exportação OMP_NUM_THREADS=1 exportação MKL_NUM_THREADS=1 exportação OPENBLAS_NUM_THREADS=1 exportação NUMEXPR_NUM_THREADS=1 exportação VECLIB_MAXIMUM_THREADS=1 export PYTHONUNBUFFERED=1 Exec Python -M sglang.launch_server \ --caminho-modelo /workspace/models/hugggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-weight-path /workspace/models/hughugface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa33a1331754112fb9e3410c55efa2f \ --kt-threadpool-count 1 \ --kt-método RAWINT4 \ --código-remoto-confiança \ --nome-modelo-servido kimi_k2 \ --parser de chamadas de ferramentas kimi_k2 \ --analisador de raciocínio kimi_k2 \ --desabilitar-cache-radix \ --desabilitar-chunked-prefix-cache \ --tensor-paralelo-tamanho 4 \ --ativar-p2p-check \ --fusão de desabilitar-compartilhados-especialistas\ --desabilitar-cuda-grafo \ --host 0.0.0.0 \ --porta 8000 \ --kt-cpuinfer 32 \ --kt-num-gpu-experts 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-gpu-prefill-token-threshold 1024 \ --kt-especialista-estratégia-de de colocação uniforme \ --mem-fração-estático 0,92 \ --ativar-pedaço-misto \ --tamanho pré-preenchido em pedaços 32658 \ --max-total-tokens 200000 \ --atenção-backend flashinfer
87