在8个RTX Pro 6000 Blackwells上运行Kimi-K2.5,计划最终通过KTransformers+SGLang在4个相同的GPU上测试CPU/GPU混合推理设置。 非常好奇混合设置与在4个GPU上量化的Kimi-K2.5适配的整体性能对比。混合设置需要接近768GB的RAM。 首先,这是在8个GPU上使用合成编码代理样式工作负载的基线,目标是2k-45k输入标记,80-3k最大输出标记,并且最多支持10个并发请求。SGLang的--mem-fraction-static标志设置为0.90。 基线平均吞吐量: ~74输出标记/秒 @ 10个并发请求