Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Executando Kimi-K2.5 em 8x RTX Pro 6000 Blackwells, com planos de eventualmente testar uma configuração de inferência híbrida CPU/GPU através do KTransformers+SGLang em 4x das mesmas GPUs
Estou muito curioso para avaliar o desempenho geral com a configuração híbrida em comparação com um ajuste quantizado do Kimi-K2.5 em 4 GPUs. A configuração híbrida precisará de cerca de 768GB de RAM
Para começar, aqui está uma linha de base em 8x GPUs usando uma carga de trabalho de estilo agente de codificação sintética, visando 2k-45k tokens de entrada, 80-3k tokens de saída máximos, e com até 10 solicitações simultâneas. A flag --mem-fraction-static do SGLang está definida para 0.90
Taxa de transferência média da linha de base:
~74 tokens de saída/s @ 10 solicitações simultâneas

Top
Classificação
Favoritos
