Rodando Kimi-K2.5 em 8x RTX Pro 6000 Blackwells, com planos de testar eventualmente uma configuração híbrida de inferência CPU/GPU via KTransformers+SGLang em 4x das mesmas GPUs Estou muito curioso para avaliar o desempenho geral do sistema híbrido comparado a um Kimi-K2.5 quantizado entre as 4 GPUs. A configuração híbrida vai precisar de quase 768GB de RAM Para começar, aqui está uma linha de base entre 8x GPUs usando um workload no estilo agente de codificação sintético, com 2k-45k tokens de entrada, 80-3k tokens de saída máximos e até 10 requisições simultâneas. A flag --mem-fraction-static do SGLang está definida para 0,90 Taxa média de transferência básica: ~74 tokens de saída/s @ 10 solicitações concorrentes