Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ejecutando Kimi-K2.5 en 8x RTX Pro 6000 Blackwells, con planes de probar eventualmente una configuración de inferencia híbrida CPU/GPU a través de KTransformers+SGLang en 4x de las mismas GPUs
Tengo mucha curiosidad por evaluar el rendimiento general con la configuración híbrida en comparación con un ajuste cuantizado de Kimi-K2.5 en las 4 GPUs. La configuración híbrida necesitará cerca de 768GB de RAM
Para empezar, aquí hay una línea base a través de 8x GPUs utilizando una carga de trabajo de estilo agente de codificación sintética que apunta a 2k-45k tokens de entrada, 80-3k tokens de salida máximos, y con hasta 10 solicitudes concurrentes. La bandera --mem-fraction-static de SGLang está configurada en 0.90
Rendimiento promedio de la línea base:
~74 tokens de salida/s @ 10 solicitudes concurrentes

Parte superior
Clasificación
Favoritos
