トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
KTransformers+SGLangを用いたKimi-K2.5の初期テストを、ハイブリッド4倍RTX Pro 6000 Blackwell+640GB/1.5TBのCPUメモリオフロードで実施しました。リウムポッドによる計算:
- 19.97 出力 Tok/s @ 同時要求10件
- 平均TTFT:~120秒
- 中央値TTFT:~102秒
このセットアップをさらに最適化するためにKTフラグを調整しる必要がありますが、これはシステム全体のCPUコア数と利用可能なRAMに大きく依存します。GPU <> PCIe <-> RAMの相互接続が最も明白なボトルネックです
GPUに関するMoEレイヤーごとの専門家:
--kt-num-gpu-experts=128
MoE推論専用のCPUコア:
--kt-cpuinfer=104
CPUの専門家はGPUの重複作業を行っています:
--kt-max-deferred-experts-per-token=2
プリフィルチャンクあたりの最大トークン数:
--チャンクプリフィルサイズ=32658
CUDAグラフキャプチャが無効化:
--無効化キューダグラフ


2026年2月25日
8台のRTX Pro 6000 BlackwellでKimi-K2.5を運用しており、最終的にはKTransformers+SGLangを使ったCPU/GPUハイブリッド推論セットアップを同じGPU4台でテストする予定です
ハイブリッドセットアップと、4GPUに量子化されたKimi-K2.5を合わせた場合の全体的な性能を比較してみたいです。ハイブリッド構成では約768GBのRAMが必要です
まず、8xGPUを使った合成コーディングエージェントスタイルのワークロードをベースラインで示します。対象は2k〜45kの入力トークン、最大80〜3kの出力トークン、最大10の同時リクエストです。SGLangの--mem-fraction-staticフラグは0.90に設定されています
ベースライン平均スループット:
~74トークン/秒 @ 10件の同時リクエスト

KTransformers+SGLangの旗を使って作品を再現する:
==========
エクスポートCUDA_VISIBLE_DEVICES=0,1,2,3
エクスポート OMP_NUM_THREADS=1
エクスポート MKL_NUM_THREADS=1
エクスポート OPENBLAS_NUM_THREADS=1
エクスポート NUMEXPR_NUM_THREADS=1
エクスポート VECLIB_MAXIMUM_THREADS=1
Python -M sglang.launch_server \
--model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--KT-cpuinfer 104 \
--kt-threadpool-count 2 \
--KT-num-GPU-エキスペンス 128 \
--kt-max-deferred-experts-per-token 2 \
--kt-メソッドRAWINT4 \
--kt-gpu-prefill-token-threshold 400 \
--kt-エキスパート配置戦略 uniform \
--信頼リモートコード \
--記憶分数静的 0.90 \
--提供されたモデル名 kimi_k2 \
--ツールコールパーサー kimi_k2 \
--推論解析器 kimi_k2 \
--disable-radix-cache \
--disable-チャンクプレフィックスキャッシュ \
--enable-mixed-chunk \
--テンソル平行サイズ 4 \
--enable-p2p-check \
--disable-shared-experts-fusion \
--チャンクプリフィルサイズ32658 \
--最大トークン数 120000 \
--注意-バックエンドフラッシュインファー \
--無効化クーダグラフ \
--host 0.0.0.0 \
--ポート8000
130
トップ
ランキング
お気に入り