Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Executando Kimi-K2.5 em 8x RTX Pro 6000 Blackwells, com planos de eventualmente testar uma configuração de inferência híbrida CPU/GPU através do KTransformers+SGLang em 4x das mesmas GPUs Estou muito curioso para avaliar o desempenho geral com a configuração híbrida em comparação com um ajuste quantizado do Kimi-K2.5 em 4 GPUs. A configuração híbrida precisará de cerca de 768GB de RAM Para começar, aqui está uma linha de base em 8x GPUs usando uma carga de trabalho de estilo agente de codificação sintética, visando 2k-45k tokens de entrada, 80-3k tokens de saída máximos, e com até 10 solicitações simultâneas. A flag --mem-fraction-static do SGLang está definida para 0.90 Taxa de transferência média da linha de base: ~74 tokens de saída/s @ 10 solicitações simultâneas

Top

Classificação

Favoritos