Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kjører Kimi-K2.5 på 8x RTX Pro 6000 Blackwells, med planer om etter hvert å teste en CPU/GPU-hybrid inferensoppsett gjennom KTransformers+SGLang på 4x av de samme GPU-ene
Veldig nysgjerrig på å vurdere den totale ytelsen med hybridoppsettet sammenlignet med en kvantisert Kimi-K2.5-tilpasning over de 4 GPU-ene. Hybridoppsettet vil trenge nærmere 768 GB RAM
For å starte, her er en baseline over 8x GPU-er som bruker en syntetisk kodeagent-lignende arbeidsbelastning rettet mot 2k-45k input tokens, 80-3k maks output tokens, og med opptil 10 samtidige forespørsler. SGLangs --mem-fraction-static-flagg er satt til 0,90
Gjennomsnittlig baseline-gjennomstrømning:
~74 utdatatokens/s @ 10 samtidige forespørsler

Topp
Rangering
Favoritter
