Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ejecutando Kimi-K2.5 en 8 Blackwells RTX Pro 6000, con planes de probar eventualmente una configuración híbrida de inferencia CPU/GPU a través de KTransformers+SGLang en 4 GPUs de las mismas
Tengo mucha curiosidad por valorar el rendimiento general con la configuración híbrida comparado con un Kimi-K2.5 cuantizado que se ajusta entre las 4 GPUs. La configuración híbrida necesitará cerca de 768GB de RAM
Para empezar, aquí tienes una referencia entre 8 GPUs usando una carga de trabajo tipo agente de codificación sintética que apunta a 2k-45k tokens de entrada, tokens de salida máximo de 80-3k, y con hasta 10 solicitudes simultáneas. La bandera --mem-fraction-static de SGLang está configurada en 0,90
Rendimiento promedio base:
~74 tokens/s de salida @ 10 solicitudes concurrentes

Populares
Ranking
Favoritas
