Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 via KTransformers+SGLang em uma configuração híbrida de GPU/CPU com descarregamento de memória: 4x RTX Pro 6000 Blackwells + 640GB de RAM
A base original era em 8x GPUs usando uma carga de trabalho no estilo agente de codificação sintética, com alvo de tokens de entrada de 2k-45k, tokens de saída máximo de 80-3k, e com até 10 requisições simultâneas. Reexecutado na nova configuração híbrida
O melhor que consegui:
- 23,03 tokens/s de saída @ 10 requisições concorrentes
- Média de TTFT: ~60s
- Média de tempo de tempo: ~64s
Resultados iniciais:
- 74,39 tokens/s de saída @ 10 requisições concorrentes
- Média de TTFT: ~9s
- Mediana TTFT: ~3,7s


26 de fev. de 2026
Testes iniciais para Kimi-K2.5 via KTransformers+SGLang, em um Blackwell híbrido 4x RTX Pro 6000 + 640GB/1,5TB de memória de CPU. Computação fornecida pelos pods de Lium:
- 19,97 saída tok/s @ 10 requisições concorrentes
- Média de TTFT: ~120s
- Média de tempo de tempo: ~102s
É preciso mexer nas flags KT para otimizar ainda mais essa configuração, que depende muito do número total de núcleos de CPU do sistema e da RAM disponível. A interconectividade da RAM <-> PCIe <-> da GPU é o gargalo mais óbvio
Especialistas por camada MoE na GPU:
--kt-num-gpu-experts=128
Núcleos de CPU dedicados à inferência MoE:
--kt-cpuinfer=104
Especialistas em CPU trabalham sobrepostos com GPU:
--kt-max-deferred-experts-per-token=2
Fichas máximas por bloco pré-preenchido:
--chunked-pré-fill-size=32658
Captura de grafos CUDA desativada:
--desabilitar-cuda-grafo

Comando completo:
exportação CUDA_VISIBLE_DEVICES=0,1,2,3
exportação OMP_NUM_THREADS=1
exportação MKL_NUM_THREADS=1
exportação OPENBLAS_NUM_THREADS=1
exportação NUMEXPR_NUM_THREADS=1
exportação VECLIB_MAXIMUM_THREADS=1
export PYTHONUNBUFFERED=1
Exec Python -M sglang.launch_server \
--caminho-modelo /workspace/models/hugggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-weight-path /workspace/models/hughugface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa33a1331754112fb9e3410c55efa2f \
--kt-threadpool-count 1 \
--kt-método RAWINT4 \
--código-remoto-confiança \
--nome-modelo-servido kimi_k2 \
--parser de chamadas de ferramentas kimi_k2 \
--analisador de raciocínio kimi_k2 \
--desabilitar-cache-radix \
--desabilitar-chunked-prefix-cache \
--tensor-paralelo-tamanho 4 \
--ativar-p2p-check \
--fusão de desabilitar-compartilhados-especialistas\
--desabilitar-cuda-grafo \
--host 0.0.0.0 \
--porta 8000 \
--kt-cpuinfer 32 \
--kt-num-gpu-experts 128 \
--kt-max-deferred-experts-per-token 2 \
--kt-gpu-prefill-token-threshold 1024 \
--kt-especialista-estratégia-de de colocação uniforme \
--mem-fração-estático 0,92 \
--ativar-pedaço-misto \
--tamanho pré-preenchido em pedaços 32658 \
--max-total-tokens 200000 \
--atenção-backend flashinfer
87
Melhores
Classificação
Favoritos