Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 vía KTransformers+SGLang en una configuración híbrida de descarga de memoria GPU/CPU: 4 Blackwells RTX Pro 6000 + 640GB de RAM
La base original estaba en 8 GPUs usando una carga de trabajo tipo agente de codificación sintética dirigida a tokens de entrada de 2k-45k, tokens máximos de salida de 80-3k y con hasta 10 solicitudes concurrentes. Volvió a correr en la nueva configuración híbrida
Lo mejor que pude conseguir:
- 23.03 tokens/s de salida @ 10 solicitudes concurrentes
- TTFT media: ~60s
- TTFT media: ~64s
Resultados iniciales:
- 74,39 tokens/s de salida @ 10 solicitudes concurrentes
- TTFT media: ~9s
- TTFT mediana: ~3,7s


26 feb 2026
Pruebas iniciales para Kimi-K2.5 vía KTransformers+SGLang, en un Blackwell híbrido 4x RTX Pro 6000 + 640GB/1,5TB de descarga de memoria de CPU. Cálculo proporcionado por los pods de Lium:
- 19,97 tok/s de salida @ 10 solicitudes concurrentes
- TTFT media: ~120s
- TTFT media: ~102s
Hay que jugar con las banderas KT para optimizar aún más esta configuración, que depende mucho del número total de núcleos de CPU y la RAM disponible del sistema. La interconectividad de RAM <-> PCIe <-> de la GPU es el cuello de botella más evidente
Expertos por capa MoE en GPU:
--kt-num-gpu-experts=128
Núcleos de CPU dedicados a la inferencia MoE:
--kt-cpuinfer=104
Los expertos en CPU trabajan en solapamiento con GPU:
--kt-max-deferred-experts-per-token=2
Fichas máximas por bloque de prerelleno:
--tamaño-pre-llenado en trozos=32658
Captura de grafos CUDA desactivada:
--desactivar-cuda-grafo

Comando completo:
exportación CUDA_VISIBLE_DEVICES=0,1,2,3
exportar OMP_NUM_THREADS=1
exportar MKL_NUM_THREADS=1
exportar OPENBLAS_NUM_THREADS=1
exportar NUMEXPR_NUM_THREADS=1
exportar VECLIB_MAXIMUM_THREADS=1
export PYTHONUNBUFFERED=1
Ejecutiva Python -M sglang.launch_server \
--model-path /espacio de trabajo/modelos/hughugface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-weight-path /espacio de trabajo/modelos/rostro de abrazo/modelos--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \
--kt-threadpool-count 1 \
--kt-método RAWINT4 \
--código-remoto-confianza \
--nombre-de-modelo-servido kimi_k2 \
--analizador de llamadas a herramientas kimi_k2 \
--analizador de razonamiento kimi_k2 \
--desactivar-caché-radix \
--desactivar la caché de prefijo-fragmentada \
--tensor-paralelo-tamaño 4 \
--activar-p2p-check \
--deshabilitar la fusión de expertos compartidos \
--desactivar-cuda-grafo \
--presentador 0.0.0.0 \
--puerto 8000 \
--kt-cpuinfer 32 \
--kt-num-gpu-expertos 128 \
--kt-max-deferred-experts-per-token 2 \
--kt-gpu-prefill-token-threshold 1024 \
--kt-experto-estrategia-estrategia-uniforme \
--mem-fracción-estática 0,92 \
--activar-fragmento-mixto\
--tamaño de pre-relleno en trozos 32658 \
--máximo-total-tokens 200000 \
--atención-backend flashinfer
85
Populares
Ranking
Favoritas