KTransformers+SGLangを用いたKimi-K2.5の初期テストを、ハイブリッド4倍RTX Pro 6000 Blackwell+640GB/1.5TBのCPUメモリオフロードで実施しました。リウムポッドによる計算: - 19.97 出力 Tok/s @ 同時要求10件 - 平均TTFT:~120秒 - 中央値TTFT:~102秒 このセットアップをさらに最適化するためにKTフラグを調整しる必要がありますが、これはシステム全体のCPUコア数と利用可能なRAMに大きく依存します。GPU <> PCIe <-> RAMの相互接続が最も明白なボトルネックです GPUに関するMoEレイヤーごとの専門家: --kt-num-gpu-experts=128 MoE推論専用のCPUコア: --kt-cpuinfer=104 CPUの専門家はGPUの重複作業を行っています: --kt-max-deferred-experts-per-token=2 プリフィルチャンクあたりの最大トークン数: --チャンクプリフィルサイズ=32658 CUDAグラフキャプチャが無効化: --無効化キューダグラフ
Yannick Nick
Yannick Nick2026年2月25日
8台のRTX Pro 6000 BlackwellでKimi-K2.5を運用しており、最終的にはKTransformers+SGLangを使ったCPU/GPUハイブリッド推論セットアップを同じGPU4台でテストする予定です ハイブリッドセットアップと、4GPUに量子化されたKimi-K2.5を合わせた場合の全体的な性能を比較してみたいです。ハイブリッド構成では約768GBのRAMが必要です まず、8xGPUを使った合成コーディングエージェントスタイルのワークロードをベースラインで示します。対象は2k〜45kの入力トークン、最大80〜3kの出力トークン、最大10の同時リクエストです。SGLangの--mem-fraction-staticフラグは0.90に設定されています ベースライン平均スループット: ~74トークン/秒 @ 10件の同時リクエスト
KTransformers+SGLangの旗を使って作品を再現する: ========== エクスポートCUDA_VISIBLE_DEVICES=0,1,2,3 エクスポート OMP_NUM_THREADS=1 エクスポート MKL_NUM_THREADS=1 エクスポート OPENBLAS_NUM_THREADS=1 エクスポート NUMEXPR_NUM_THREADS=1 エクスポート VECLIB_MAXIMUM_THREADS=1 Python -M sglang.launch_server \ --model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --KT-cpuinfer 104 \ --kt-threadpool-count 2 \ --KT-num-GPU-エキスペンス 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-メソッドRAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --kt-エキスパート配置戦略 uniform \ --信頼リモートコード \ --記憶分数静的 0.90 \ --提供されたモデル名 kimi_k2 \ --ツールコールパーサー kimi_k2 \ --推論解析器 kimi_k2 \ --disable-radix-cache \ --disable-チャンクプレフィックスキャッシュ \ --enable-mixed-chunk \ --テンソル平行サイズ 4 \ --enable-p2p-check \ --disable-shared-experts-fusion \ --チャンクプリフィルサイズ32658 \ --最大トークン数 120000 \ --注意-バックエンドフラッシュインファー \ --無効化クーダグラフ \ --host 0.0.0.0 \ --ポート8000
130