Kör Kimi-K2.5 på 8x RTX Pro 6000 Blackwells, med planer på att så småningom testa en CPU/GPU-hybrid inferensuppsättning via KTransformers+SGLang på 4x av samma GPU:er Väldigt nyfiken på att bedöma den totala prestandan med hybriduppsättningen jämfört med en kvantiserad Kimi-K2.5-passform över de fyra GPU:erna. Hybriduppsättningen kommer att kräva nära 768 GB RAM För att börja med är här en baslinje över 8x GPU:er som använder en arbetsbelastning i syntetisk kodningsagentstil med sikte på 2k-45k inmatningstokens, 80-3k maxutmatningstokens och med upp till 10 samtidiga förfrågningar. SGLangs --mem-fraktion-statiska flagga är inställd på 0,90 Genomsnittlig basgenomströmning: ~74 utmatningstokens/s @ 10 samtidiga förfrågningar