Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tests initiaux pour Kimi-K2.5 via KTransformers+SGLang, sur un hybride 4x RTX Pro 6000 Blackwell + 640 Go/1,5 To de mémoire CPU déchargée. Calcul fourni par les pods Lium :
- 19,97 tok/s de sortie @ 10 requêtes concurrentes
- TTFT moyen : ~120s
- TTFT médian : ~102s
Il faut jouer avec les drapeaux KT pour optimiser davantage cette configuration, qui dépend fortement du nombre total de cœurs CPU du système et de la RAM disponible. L'interconnectivité GPU <-> PCIe <-> RAM est le goulet d'étranglement le plus évident.
Experts par couche MoE sur GPU :
--kt-num-gpu-experts=128
Cœurs CPU dédiés à l'inférence MoE :
--kt-cpuinfer=104
Les experts CPU travaillent en chevauchement avec le travail GPU :
--kt-max-deferred-experts-per-token=2
Max tokens par chunk de pré-remplissage :
--chunked-prefill-size=32658
Capture de graphique CUDA désactivée :
--disable-cuda-graph


25 févr. 2026
Exécution de Kimi-K2.5 sur 8x RTX Pro 6000 Blackwells, avec des plans pour tester éventuellement une configuration d'inférence hybride CPU/GPU via KTransformers+SGLang sur 4x des mêmes GPU
Très curieux d'évaluer la performance globale avec la configuration hybride par rapport à un ajustement quantifié de Kimi-K2.5 sur les 4 GPU. La configuration hybride nécessitera près de 768 Go de RAM
Pour commencer, voici une référence sur 8x GPU utilisant une charge de travail de style agent de codage synthétique ciblant 2k-45k tokens d'entrée, 80-3k tokens de sortie max, et avec jusqu'à 10 requêtes concurrentes. Le drapeau --mem-fraction-static de SGLang est réglé sur 0,90
Débit moyen de référence :
~74 tokens de sortie/s @ 10 requêtes concurrentes

KTransformers+SGLang drapeaux pour reproduire le travail :
==========
export CUDA_VISIBLE_DEVICES=0,1,2,3
export OMP_NUM_THREADS=1
export MKL_NUM_THREADS=1
export OPENBLAS_NUM_THREADS=1
export NUMEXPR_NUM_THREADS=1
export VECLIB_MAXIMUM_THREADS=1
python -m sglang.launch_server \
--model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-cpuinfer 104 \
--kt-threadpool-count 2 \
--kt-num-gpu-experts 128 \
--kt-max-deferred-experts-per-token 2 \
--kt-method RAWINT4 \
--kt-gpu-prefill-token-threshold 400 \
--kt-expert-placement-strategy uniform \
--trust-remote-code \
--mem-fraction-static 0.90 \
--served-model-name kimi_k2 \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--disable-radix-cache \
--disable-chunked-prefix-cache \
--enable-mixed-chunk \
--tensor-parallel-size 4 \
--enable-p2p-check \
--disable-shared-experts-fusion \
--chunked-prefill-size 32658 \
--max-total-tokens 120000 \
--attention-backend flashinfer \
--disable-cuda-graph \
--host 0.0.0.0 \
--port 8000
125
Meilleurs
Classement
Favoris