Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 draaien op 8x RTX Pro 6000 Blackwells, met plannen om uiteindelijk een CPU/GPU hybride inferentie-opstelling te testen via KTransformers+SGLang op 4x van dezelfde GPU's
Zeer benieuwd naar de algehele prestaties van de hybride opstelling in vergelijking met een gequantiseerde Kimi-K2.5 fit over de 4 GPU's. De hybride opstelling heeft bijna 768GB RAM nodig
Om te beginnen hier een basislijn over 8x GPU's met een synthetische coderingsagent stijl werklast gericht op 2k-45k invoertokens, 80-3k maximale uitvoertokens, en met tot 10 gelijktijdige verzoeken. SGLang's --mem-fraction-static vlag is ingesteld op 0.90
Basislijn gemiddelde doorvoer:
~74 uitvoertokens/s @ 10 gelijktijdige verzoeken

Boven
Positie
Favorieten
