DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Kimi-K2.5 via KTransformers+SGLang em uma configuração híbrida de GPU/CPU com descarregamento de memória: 4x RTX Pro 6000 Blackwells + 640GB de RAM A base original era em 8x GPUs usando uma carga de trabalho no estilo agente de codificação sintética, com alvo de tokens de entrada de 2k-45k, tokens de saída máximo de 80-3k, e com até 10 requisições simultâneas. Reexecutado na nova configuração híbrida O melhor que consegui: - 23,03 tokens/s de saída @ 10 requisições concorrentes - Média de TTFT: ~60s - Média de tempo de tempo: ~64s Resultados iniciais: - 74,39 tokens/s de saída @ 10 requisições concorrentes - Média de TTFT: ~9s - Mediana TTFT: ~3,7s

Comando completo: exportação CUDA_VISIBLE_DEVICES=0,1,2,3 exportação OMP_NUM_THREADS=1 exportação MKL_NUM_THREADS=1 exportação OPENBLAS_NUM_THREADS=1 exportação NUMEXPR_NUM_THREADS=1 exportação VECLIB_MAXIMUM_THREADS=1 export PYTHONUNBUFFERED=1 Exec Python -M sglang.launch_server \ --caminho-modelo /workspace/models/hugggingface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f \ --kt-weight-path /workspace/models/hughugface/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa33a1331754112fb9e3410c55efa2f \ --kt-threadpool-count 1 \ --kt-método RAWINT4 \ --código-remoto-confiança \ --nome-modelo-servido kimi_k2 \ --parser de chamadas de ferramentas kimi_k2 \ --analisador de raciocínio kimi_k2 \ --desabilitar-cache-radix \ --desabilitar-chunked-prefix-cache \ --tensor-paralelo-tamanho 4 \ --ativar-p2p-check \ --fusão de desabilitar-compartilhados-especialistas\ --desabilitar-cuda-grafo \ --host 0.0.0.0 \ --porta 8000 \ --kt-cpuinfer 32 \ --kt-num-gpu-experts 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-gpu-prefill-token-threshold 1024 \ --kt-especialista-estratégia-de de colocação uniforme \ --mem-fração-estático 0,92 \ --ativar-pedaço-misto \ --tamanho pré-preenchido em pedaços 32658 \ --max-total-tokens 200000 \ --atenção-backend flashinfer

87

Melhores

Classificação

Favoritos