8台のRTX Pro 6000 BlackwellでKimi-K2.5を運用しており、最終的にはKTransformers+SGLangを使ったCPU/GPUハイブリッド推論セットアップを同じGPU4台でテストする予定です ハイブリッドセットアップと、4GPUに量子化されたKimi-K2.5を合わせた場合の全体的な性能を比較してみたいです。ハイブリッド構成では約768GBのRAMが必要です まず、8xGPUを使った合成コーディングエージェントスタイルのワークロードをベースラインで示します。対象は2k〜45kの入力トークン、最大80〜3kの出力トークン、最大10の同時リクエストです。SGLangの--mem-fraction-staticフラグは0.90に設定されています ベースライン平均スループット: ~74トークン/秒 @ 10件の同時リクエスト