Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Inledande tester för Kimi-K2.5 via KTransformers+SGLang, på en hybrid 4x RTX Pro 6000 Blackwell + 640GB/1,5TB CPU-minnesavlastning. Beräkningar tillhandahållna av Lium pods:
- 19,97 utdata tok/s @ 10 samtidiga förfrågningar
- Genomsnittlig TTFT: ~120s
- Median TTFT: ~102s
Man behöver leka med KT-flaggorna för att optimera denna setup ytterligare, vilket är starkt beroende av systemets totala CPU-kärnantal och tillgängligt RAM. GPU <-> PCIe <-> RAM-sammankoppling är den mest uppenbara flaskhalsen
Experter enligt MoE-lagret på GPU:n:
--kt-num-gpu-experts=128
CPU-kärnor dedikerade till MoE-inferens:
--kt-cpuinfer=104
CPU-experter arbetar med överlappande GPU-arbete:
--kt-max-deferred-experts-per-token=2
Maxantal tokens per prefill-chunk:
--chunked-prefill-size=32658
CUDA-graffångst inaktiverad:
--disable-cuda-graph


25 feb. 2026
Kör Kimi-K2.5 på 8x RTX Pro 6000 Blackwells, med planer på att så småningom testa en CPU/GPU-hybrid inferensuppsättning via KTransformers+SGLang på 4x av samma GPU:er
Väldigt nyfiken på att bedöma den totala prestandan med hybriduppsättningen jämfört med en kvantiserad Kimi-K2.5-passform över de fyra GPU:erna. Hybriduppsättningen kommer att kräva nära 768 GB RAM
För att börja med är här en baslinje över 8x GPU:er som använder en arbetsbelastning i syntetisk kodningsagentstil med sikte på 2k-45k inmatningstokens, 80-3k maxutmatningstokens och med upp till 10 samtidiga förfrågningar. SGLangs --mem-fraktion-statiska flagga är inställd på 0,90
Genomsnittlig basgenomströmning:
~74 utmatningstokens/s @ 10 samtidiga förfrågningar

KTransformers+SGLang-flaggor för att återge arbetet:
==========
export CUDA_VISIBLE_DEVICES=0,1,2,3
export OMP_NUM_THREADS=1
exportera MKL_NUM_THREADS=1
export OPENBLAS_NUM_THREADS=1
export NUMEXPR_NUM_THREADS=1
export VECLIB_MAXIMUM_THREADS=1
python -m sglang.launch_server \
--model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-vikt-bana <HF_PATH>/modeller--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-cpuinfer 104 \
--kt-trådpool-antal 2 \
--kt-num-gpu-experts 128 \
--kt-max-deferred-experts-per-token 2 \
--kt-metoden RAWINT4 \
--kt-gpu-prefill-token-threshold 400 \
--kt-expert-placeringsstrategi-uniform \
--trust-remote-code \
--mem-fraktion-statisk 0,90 \
--tjänade-modell-namn kimi_k2 \
--verktygssamtal-parser kimi_k2 \
--resonerande-parser kimi_k2 \
--disable-radix-cache \
--disable-chunked-prefix-cache \
--aktivera-blandad-chunk \
--tensor-parallell-storlek 4 \
--aktivera-p2p-check \
--inaktivera-delade-experter-fusion \
--chunked-prefill-storlek 32658 \
--max-total-tokens 120000 \
--uppmärksamhet-backend flashinfer \
--inaktivera-cuda-graf \
--värd 0.0.0.0 \
--port 8000
129
Topp
Rankning
Favoriter