Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Rodando Kimi-K2.5 em 8x RTX Pro 6000 Blackwells, com planos de testar eventualmente uma configuração híbrida de inferência CPU/GPU via KTransformers+SGLang em 4x das mesmas GPUs
Estou muito curioso para avaliar o desempenho geral do sistema híbrido comparado a um Kimi-K2.5 quantizado entre as 4 GPUs. A configuração híbrida vai precisar de quase 768GB de RAM
Para começar, aqui está uma linha de base entre 8x GPUs usando um workload no estilo agente de codificação sintético, com 2k-45k tokens de entrada, 80-3k tokens de saída máximos e até 10 requisições simultâneas. A flag --mem-fraction-static do SGLang está definida para 0,90
Taxa média de transferência básica:
~74 tokens de saída/s @ 10 solicitações concorrentes

Melhores
Classificação
Favoritos
