Kimi-K2.5 draaien op 8x RTX Pro 6000 Blackwells, met plannen om uiteindelijk een CPU/GPU hybride inferentie-opstelling te testen via KTransformers+SGLang op 4x van dezelfde GPU's Zeer benieuwd naar de algehele prestaties van de hybride opstelling in vergelijking met een gequantiseerde Kimi-K2.5 fit over de 4 GPU's. De hybride opstelling heeft bijna 768GB RAM nodig Om te beginnen hier een basislijn over 8x GPU's met een synthetische coderingsagent stijl werklast gericht op 2k-45k invoertokens, 80-3k maximale uitvoertokens, en met tot 10 gelijktijdige verzoeken. SGLang's --mem-fraction-static vlag is ingesteld op 0.90 Basislijn gemiddelde doorvoer: ~74 uitvoertokens/s @ 10 gelijktijdige verzoeken