DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Tests initiaux pour Kimi-K2.5 via KTransformers+SGLang, sur un hybride 4x RTX Pro 6000 Blackwell + 640 Go/1,5 To de mémoire CPU déchargée. Calcul fourni par les pods Lium : - 19,97 tok/s de sortie @ 10 requêtes concurrentes - TTFT moyen : ~120s - TTFT médian : ~102s Il faut jouer avec les drapeaux KT pour optimiser davantage cette configuration, qui dépend fortement du nombre total de cœurs CPU du système et de la RAM disponible. L'interconnectivité GPU <-> PCIe <-> RAM est le goulet d'étranglement le plus évident. Experts par couche MoE sur GPU : --kt-num-gpu-experts=128 Cœurs CPU dédiés à l'inférence MoE : --kt-cpuinfer=104 Les experts CPU travaillent en chevauchement avec le travail GPU : --kt-max-deferred-experts-per-token=2 Max tokens par chunk de pré-remplissage : --chunked-prefill-size=32658 Capture de graphique CUDA désactivée : --disable-cuda-graph

KTransformers+SGLang drapeaux pour reproduire le travail : ========== export CUDA_VISIBLE_DEVICES=0,1,2,3 export OMP_NUM_THREADS=1 export MKL_NUM_THREADS=1 export OPENBLAS_NUM_THREADS=1 export NUMEXPR_NUM_THREADS=1 export VECLIB_MAXIMUM_THREADS=1 python -m sglang.launch_server \ --model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-cpuinfer 104 \ --kt-threadpool-count 2 \ --kt-num-gpu-experts 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-method RAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --kt-expert-placement-strategy uniform \ --trust-remote-code \ --mem-fraction-static 0.90 \ --served-model-name kimi_k2 \ --tool-call-parser kimi_k2 \ --reasoning-parser kimi_k2 \ --disable-radix-cache \ --disable-chunked-prefix-cache \ --enable-mixed-chunk \ --tensor-parallel-size 4 \ --enable-p2p-check \ --disable-shared-experts-fusion \ --chunked-prefill-size 32658 \ --max-total-tokens 120000 \ --attention-backend flashinfer \ --disable-cuda-graph \ --host 0.0.0.0 \ --port 8000

125

Meilleurs

Classement

Favoris