在8個RTX Pro 6000 Blackwells上運行Kimi-K2.5,計劃最終通過KTransformers+SGLang在4個相同的GPU上測試CPU/GPU混合推理設置。 非常好奇與在4個GPU上量化的Kimi-K2.5適配相比,混合設置的整體性能如何。混合設置需要接近768GB的RAM。 首先,這裡是使用合成編碼代理樣式工作負載的8個GPU的基準,目標是2k-45k的輸入標記,80-3k的最大輸出標記,並且最多支持10個並發請求。SGLang的--mem-fraction-static標誌設置為0.90。 基準平均吞吐量: ~74輸出標記/秒 @ 10個並發請求