DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Ejecutando Kimi-K2.5 en 8x RTX Pro 6000 Blackwells, con planes de probar eventualmente una configuración de inferencia híbrida CPU/GPU a través de KTransformers+SGLang en 4x de las mismas GPUs Tengo mucha curiosidad por evaluar el rendimiento general con la configuración híbrida en comparación con un ajuste cuantizado de Kimi-K2.5 en las 4 GPUs. La configuración híbrida necesitará cerca de 768GB de RAM Para empezar, aquí hay una línea base a través de 8x GPUs utilizando una carga de trabajo de estilo agente de codificación sintética que apunta a 2k-45k tokens de entrada, 80-3k tokens de salida máximos, y con hasta 10 solicitudes concurrentes. La bandera --mem-fraction-static de SGLang está configurada en 0.90 Rendimiento promedio de la línea base: ~74 tokens de salida/s @ 10 solicitudes concurrentes

Parte superior

Clasificación

Favoritos