热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
在8个RTX Pro 6000 Blackwells上运行Kimi-K2.5,计划最终通过KTransformers+SGLang在4个相同的GPU上测试CPU/GPU混合推理设置。
非常好奇混合设置与在4个GPU上量化的Kimi-K2.5适配的整体性能对比。混合设置需要接近768GB的RAM。
首先,这是在8个GPU上使用合成编码代理样式工作负载的基线,目标是2k-45k输入标记,80-3k最大输出标记,并且最多支持10个并发请求。SGLang的--mem-fraction-static标志设置为0.90。
基线平均吞吐量:
~74输出标记/秒 @ 10个并发请求

热门
排行
收藏
