熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
在8個RTX Pro 6000 Blackwells上運行Kimi-K2.5,計劃最終通過KTransformers+SGLang在4個相同的GPU上測試CPU/GPU混合推理設置。
非常好奇與在4個GPU上量化的Kimi-K2.5適配相比,混合設置的整體性能如何。混合設置需要接近768GB的RAM。
首先,這裡是使用合成編碼代理樣式工作負載的8個GPU的基準,目標是2k-45k的輸入標記,80-3k的最大輸出標記,並且最多支持10個並發請求。SGLang的--mem-fraction-static標誌設置為0.90。
基準平均吞吐量:
~74輸出標記/秒 @ 10個並發請求

熱門
排行
收藏
