Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pruebas iniciales para Kimi-K2.5 a través de KTransformers+SGLang, en un híbrido 4x RTX Pro 6000 Blackwell + 640GB/1.5TB de memoria de CPU descargada. Cómputo proporcionado por los pods de Lium:
- 19.97 tok/s de salida @ 10 solicitudes concurrentes
- TTFT media: ~120s
- TTFT mediana: ~102s
Necesito jugar con las banderas de KT para optimizar aún más esta configuración, que depende en gran medida del número total de núcleos de CPU del sistema y de la RAM disponible. La interconectividad entre GPU <-> PCIe <-> RAM es el cuello de botella más obvio.
Expertos por capa MoE en GPU:
--kt-num-gpu-experts=128
Núcleos de CPU dedicados a la inferencia MoE:
--kt-cpuinfer=104
Los expertos de CPU trabajan superponiéndose al trabajo de GPU:
--kt-max-deferred-experts-per-token=2
Máx. tokens por fragmento de prellenado:
--chunked-prefill-size=32658
Captura de gráfico CUDA deshabilitada:
--disable-cuda-graph


25 feb 2026
Ejecutando Kimi-K2.5 en 8x RTX Pro 6000 Blackwells, con planes de probar eventualmente una configuración de inferencia híbrida CPU/GPU a través de KTransformers+SGLang en 4x de las mismas GPUs
Tengo mucha curiosidad por evaluar el rendimiento general con la configuración híbrida en comparación con un ajuste cuantizado de Kimi-K2.5 en las 4 GPUs. La configuración híbrida necesitará cerca de 768GB de RAM
Para empezar, aquí hay una línea base a través de 8x GPUs utilizando una carga de trabajo de estilo agente de codificación sintética que apunta a 2k-45k tokens de entrada, 80-3k tokens de salida máximos, y con hasta 10 solicitudes concurrentes. La bandera --mem-fraction-static de SGLang está configurada en 0.90
Rendimiento promedio de la línea base:
~74 tokens de salida/s @ 10 solicitudes concurrentes

KTransformers+SGLang flags para reproducir el trabajo:
==========
export CUDA_VISIBLE_DEVICES=0,1,2,3
export OMP_NUM_THREADS=1
export MKL_NUM_THREADS=1
export OPENBLAS_NUM_THREADS=1
export NUMEXPR_NUM_THREADS=1
export VECLIB_MAXIMUM_THREADS=1
python -m sglang.launch_server \
--model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-cpuinfer 104 \
--kt-threadpool-count 2 \
--kt-num-gpu-experts 128 \
--kt-max-deferred-experts-per-token 2 \
--kt-method RAWINT4 \
--kt-gpu-prefill-token-threshold 400 \
--kt-expert-placement-strategy uniform \
--trust-remote-code \
--mem-fraction-static 0.90 \
--served-model-name kimi_k2 \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--disable-radix-cache \
--disable-chunked-prefix-cache \
--enable-mixed-chunk \
--tensor-parallel-size 4 \
--enable-p2p-check \
--disable-shared-experts-fusion \
--chunked-prefill-size 32658 \
--max-total-tokens 120000 \
--attention-backend flashinfer \
--disable-cuda-graph \
--host 0.0.0.0 \
--port 8000
134
Parte superior
Clasificación
Favoritos