Kjører Kimi-K2.5 på 8x RTX Pro 6000 Blackwells, med planer om etter hvert å teste en CPU/GPU-hybrid inferensoppsett gjennom KTransformers+SGLang på 4x av de samme GPU-ene Veldig nysgjerrig på å vurdere den totale ytelsen med hybridoppsettet sammenlignet med en kvantisert Kimi-K2.5-tilpasning over de 4 GPU-ene. Hybridoppsettet vil trenge nærmere 768 GB RAM For å starte, her er en baseline over 8x GPU-er som bruker en syntetisk kodeagent-lignende arbeidsbelastning rettet mot 2k-45k input tokens, 80-3k maks output tokens, og med opptil 10 samtidige forespørsler. SGLangs --mem-fraction-static-flagg er satt til 0,90 Gjennomsnittlig baseline-gjennomstrømning: ~74 utdatatokens/s @ 10 samtidige forespørsler