Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
《Análise do benchmark EXO do Qwen3-Coder-Next-8bit no M3 Ultra》
I. Dados principais: M3 Ultra (512GB RAM) Configuração de hardware para inferência distribuída • Nó único: Apple M3 Ultra 512GB RAM (32 núcleos de CPU, 80 núcleos de GPU)
• Dois nós: 2 × M3 Ultra (1024GB RAM agregados) • Modelo: Qwen3-Coder-Next-8bit (8B parâmetros, versão quantizada)
Benchmark de desempenho (tokens/s)

II,
Informações-chave:
1. Processamento de Prompt expande linearmente com o número de nós
• 0.5K-8K contexto: um único nó já atingiu o pico (60 t/s), dois nós na verdade diminuíram (-3%)
• Razão: custo de comunicação distribuída > ganho de aceleração computacional
• Conclusão: pequeno contexto não precisa de distribuição
• 16K-64K contexto: dois nós começam a se beneficiar (+2% a +6%)
• Razão: KV Cache precisa de mais memória, gargalo em um único nó
• Conclusão: grande contexto de inferência distribuída tem valor
2.
Tendência de desempenho de Geração
• Modelo pequeno (8B) + pequeno contexto (<32K): Geração mais lenta
• Grande contexto (≥32K): desempenho começa a melhorar com insights chave
• Razão: modelo 8B tem baixa pressão computacional, gargalo na largura de banda da memória e KV Cache
3.
Importância da API /bench
• Endpoint padrão da OpenAI: cache ativado por padrão, levando a resultados de teste incorretos
• API /bench: sem streaming, retorna estatísticas de medição do servidor (precisas)
• Descoberta chave: testes de inferência distribuída devem usar /bench, caso contrário, os dados são inválidos
Três,
comparado com o Qwen3.5-35B

Quatro,
Conclusão técnica
Intervalo de valor da inferência distribuída
• Pequeno context (<8K): ótimo para um único nó, dois nós na verdade diminuem (custo de comunicação) • Grande context (≥32K): dois nós começam a se beneficiar, 64K aumenta +6% • Contexto 128K+: precisa de múltiplos nós (encontramos um problema com mensagens gossipsub de 1115KB muito grandes durante os testes)
Qwen3-Coder-Next-8bit vs Qwen3.5-35B:

V.
Gargalo do EXO
• Falha no teste de contexto de 128K: mensagem gossipsub muito grande (1115KB), é necessário reiniciar o nó
• Problema: a camada de rede limita a escalabilidade da inferência distribuída
• Solução: é necessário otimizar a fragmentação de mensagens ou usar outro protocolo de comunicação
Seis,
Comparação de Modelos Econômicos
Opção A:
M3 Ultra 512GB (nó único)
• Custo: $2000-3000
• Desempenho: 60 t/s (<8K) → 48 t/s (64K)
• Aplicável: grande contexto (≥32K), nó único é suficiente
Opção B:
M3 Ultra × 2 (dois nós)
• Custo: $4000-6000
• Desempenho: 59-51 t/s (+6% vs nó único, apenas contexto 64K)
• Aplicável: contexto super grande (≥128K), memória do nó único insuficiente
Opção C:
RTX 3090 (placa única)
• Custo: $800-1000 (usado)
• Desempenho: 112 t/s (fixo, Qwen3.5-35B)
• Aplicável: pequeno contexto (<64K), viável economicamente

Sete,
📌 Conclusões principais
1. Qwen3-Coder-Next-8bit é adequado para inferência distribuída em grandes contextos (≥32K)
Vantagens: pode ser escalado para contextos infinitos (agregação de memória em múltiplos nós)
Desvantagens: desempenho em contextos pequenos não é tão bom quanto em GPU de placa única, ciclo de ROI longo
2. Qwen3.5-35B (RTX 3090) é adequado para inferência econômica em pequenos contextos (<64K)
Vantagens: 112 t/s de alto desempenho, ROI de 6 meses para retorno
Desvantagens: limite de placa única (24GB VRAM), não pode ser escalado para 128K+
3. A inferência distribuída da EXO ainda tem gargalos
Problema: mensagens gossipsub muito grandes (1115KB), necessidade de reiniciar nós
Solução: otimizar a camada de rede ou mudar para outro protocolo de comunicação
Oitavo,
Comparação de prioridades de investimento
O Mac Studio M5 (equipado com o chip M5 Ultra) está previsto para ser lançado entre março e junho de 2026. Em termos de desempenho, nas tarefas de inferência LLM, em comparação com o M3 Ultra, o processamento de prompts do M5 Ultra pode alcançar uma aceleração de 2 a 4 vezes, com um aumento de velocidade de geração (tokens/s) de cerca de 20 a 30% (a largura de banda de memória aumenta de 800GB/s para níveis mais altos, combinada com o Neural Accelerator de cada núcleo GPU). Para versões quantizadas de modelos semelhantes ao Qwen, o M5 Ultra pode suportar contextos maiores (64K+ tokens), alcançando maior taxa de transferência em testes de benchmark (como modelos MoE grandes que atingem 150+ tok/s). Considerando que o custo do hardware é semelhante (cerca de $4000) mas com um aumento de desempenho, o ROI é previsto para ser reduzido para 8-12 meses, adequado para cenários de desenvolvimento de IA de alta intensidade, com um índice de recomendação geral mais alto.

3,3K
Top
Classificação
Favoritos
