Kimi-K2.5をKTransformers+SGLang経由で、ハイブリッドGPUとCPUメモリオフロード構成で使用:RTX Pro 6000 Blackwell4台+640GB RAM 元のベースラインは8倍GPUで、合成コーディングエージェントスタイルのワークロードを用いて、2k〜45kの入力トークン、最大80〜3kの出力トークン、最大10の同時要求を対象としていました。新しいハイブリッドセットアップで再実行しました 私が得られた最良の情報: - 23.03 トークン/秒 @ 10件の同時要求を出力 - 平均TTFT:~60秒台 - 中央値TTFT:~64秒 ベースライン結果: - 74.39 トークン/秒 @ 10件の同時要求を出力 - 平均TTFT:~9秒 - 中央値TTFT:~3.7秒
Yannick Nick
Yannick Nick2026年2月26日
KTransformers+SGLangを用いたKimi-K2.5の初期テストを、ハイブリッド4倍RTX Pro 6000 Blackwell+640GB/1.5TBのCPUメモリオフロードで実施しました。リウムポッドによる計算: - 19.97 出力 Tok/s @ 同時要求10件 - 平均TTFT:~120秒 - 中央値TTFT:~102秒 このセットアップをさらに最適化するためにKTフラグを調整しる必要がありますが、これはシステム全体のCPUコア数と利用可能なRAMに大きく依存します。GPU <> PCIe <-> RAMの相互接続が最も明白なボトルネックです GPUに関するMoEレイヤーごとの専門家: --kt-num-gpu-experts=128 MoE推論専用のCPUコア: --kt-cpuinfer=104 CPUの専門家はGPUの重複作業を行っています: --kt-max-deferred-experts-per-token=2 プリフィルチャンクあたりの最大トークン数: --チャンクプリフィルサイズ=32658 CUDAグラフキャプチャが無効化: --無効化キューダグラフ
全指揮: エクスポートCUDA_VISIBLE_DEVICES=0,1,2,3 エクスポート OMP_NUM_THREADS=1 エクスポート MKL_NUM_THREADS=1 エクスポート OPENBLAS_NUM_THREADS=1 エクスポート NUMEXPR_NUM_THREADS=1 エクスポート VECLIB_MAXIMUM_THREADS=1 export PYTHONUNBUFFERED=1 exec Python -m sglang.launch_server \ --model-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-weight-path /workspace/models/huggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-スレッドプールカウント 1 \ --kt-メソッドRAWINT4 \ --信頼リモートコード \ --提供されたモデル名 kimi_k2 \ --ツールコールパーサー kimi_k2 \ --推論解析器 kimi_k2 \ --disable-radix-cache \ --disable-チャンクプレフィックスキャッシュ \ --テンソル平行サイズ 4 \ --enable-p2p-check \ --disable-shared-experts-fusion \ --無効化クーダグラフ \ --host 0.0.0.0 \ --ポート8000\ --KT-cpuinfer 32 \ --KT-num-GPU-エキスペンス 128 \ --kt-max-deferred-experts-per-token 2 \ --KT-GPU-プリフィル-トークン-閾値 1024 \ --kt-エキスパート配置戦略 uniform \ --記憶分数静止 0.92 \ --enable-mixed-chunk \ --チャンクプリフィルサイズ32658 \ --最大トータルトークン 200000 \ --注意-バックエンドフラッシュインファー
46