Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Pruebas iniciales para Kimi-K2.5 vía KTransformers+SGLang, en un Blackwell híbrido 4x RTX Pro 6000 + 640GB/1,5TB de descarga de memoria de CPU. Cálculo proporcionado por los pods de Lium: - 19,97 tok/s de salida @ 10 solicitudes concurrentes - TTFT media: ~120s - TTFT media: ~102s Hay que jugar con las banderas KT para optimizar aún más esta configuración, que depende mucho del número total de núcleos de CPU y la RAM disponible del sistema. La interconectividad de RAM <-> PCIe <-> de la GPU es el cuello de botella más evidente Expertos por capa MoE en GPU: --kt-num-gpu-experts=128 Núcleos de CPU dedicados a la inferencia MoE: --kt-cpuinfer=104 Los expertos en CPU trabajan en solapamiento con GPU: --kt-max-deferred-experts-per-token=2 Fichas máximas por bloque de prerelleno: --tamaño-pre-llenado en trozos=32658 Captura de grafos CUDA desactivada: --desactivar-cuda-grafo

Banderas KTransformers+SGLang para reproducir el trabajo: ========== exportación CUDA_VISIBLE_DEVICES=0,1,2,3 exportar OMP_NUM_THREADS=1 exportar MKL_NUM_THREADS=1 exportar OPENBLAS_NUM_THREADS=1 exportar NUMEXPR_NUM_THREADS=1 exportar VECLIB_MAXIMUM_THREADS=1 Python -M sglang.launch_server \ --<HF_PATH>model-path /models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-weight-path <HF_PATH>/modelos--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-cpuinfer 104 \ --kt-pool-threadpool 2 \ --kt-num-gpu-expertos 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-método RAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --kt-experto-estrategia-estrategia-uniforme \ --código-remoto-confianza \ --mem-fracción-estático 0,90 \ --nombre-de-modelo-servido kimi_k2 \ --analizador de llamadas a herramientas kimi_k2 \ --analizador de razonamiento kimi_k2 \ --desactivar-caché-radix \ --desactivar la caché de prefijo-fragmentada \ --activar-fragmento-mixto\ --tensor-paralelo-tamaño 4 \ --activar-p2p-check \ --deshabilitar la fusión de expertos compartidos \ --tamaño de pre-relleno en trozos 32658 \ --máximo-total-tokens 120000 \ --atención-backend flashinfer \ --desactivar-cuda-grafo \ --presentador 0.0.0.0 \ --puerto 8000

133

Populares

Ranking

Favoritas