"Qwen3-Coder-Next-8bit sin EXO-benchmarkanalyse på M3 Ultra" 1. Kjernedata: M3 Ultra (512GB RAM) Distribuert inferensmaskinvarekonfigurasjon • Enkelt node: Apple M3 Ultra 512GB RAM (32 CPU-kjerner, 80 GPU-kjerner) • Dobbel node: 2 × M3 Ultra (1024GB RAM-aggregering) • Modell: Qwen3-Coder-Next-8bit (8B parametere, kvantisert versjon) Ytelsesbenchmarks (tokens/s)
II. Hovedbudskap: 1. Prompt Processing utvides lineært med antall noder • 0,5K-8K kontekst: Enkeltnodetopper (60 t/s), dobbelnodereduksjoner (-3 %) • Årsak: Distribuert kommunikasjonsoverhead > fordeler ved beregningsakselerasjon • Konklusjon: Små kontekster trenger ikke å distribueres • 16K-64K kontekst: Dobbelte noder begynner å dra nytte (+2 % til +6 %) • Årsak: KV Cache krever mer minne, enkeltnode flaskehals • Konklusjon: Stor-kontekst distribuert resonnement er verdifullt 2. Generasjonsytelsestrender • Liten modell(8B) + liten kontekst(<32K): Produksjonen er tregere • Stor kontekst (≥32K): Ytelsen begynner å forbedre viktige innsikter • Årsak: 8B-modellen har lavt beregningspress, og flaskehalsen ligger i minnebåndbredde og KV-cache 3. /bench API • Standard OpenAI-endepunkt: cache er aktivert som standard, noe som resulterer i feil testresultater • /bench API: Ingen strømming, returserver-målestatistikk (nøyaktig) • Nøkkelfunn: Distribuert inferens må testes med /bench, ellers er dataene ugyldige
III. Sammenlign med Qwen3.5-35B
4. Teknisk konklusjon Verdiintervaller for distribuert resonnement • Liten kontekst (<8K): Enkelt node er optimalt, men doble noder reduseres (kommunikasjonsoverhead) • Stor kontekst (≥32K): Doble noder begynner å dra nytte av det, +6 % økning ved 64K • 128K+ kontekst: Krever flere noder (støtte på problemet med at 1115KB gossipsub-meldinger var for store i testen) Qwen3-Coder-Next-8bit vs Qwen3.5-35B:
5. EXOs flaskehals • 128K konteksttest feilet: gossipsub-meldingen er for stor (1115KB), og noden må startes på nytt • Problem: Nettverkslaget begrenser skalerbarheten for distribuert inferens • Oppløsning: Meldingssharding må optimaliseres eller en annen kommunikasjonsprotokoll brukes
6. Sammenligning av økonomiske modeller Alternativ A: M3 Ultra 512GB (enkelt node) • Kostnad: 2000-3000 dollar • Ytelse: 60 t/s (<8K) → 48 t/s (64K) • Anvendelig: Stor kontekst (≥32K), en enkelt node er tilstrekkelig Scenario B: M3 Ultra × 2 (Dual Node) • Kostnad: 4000-6000 dollar • Ytelse: 59-51 t/s (+6 % mot én node, kun 64K kontekst) • Anvendelig: Svært stor kontekst (≥128K) med utilstrekkelig minne på én enkelt node Scenario C: RTX 3090 (enkeltkort) • Kostnad: 800-1000 dollar (brukt) • Ytelse: 112 t/s (fast, Qwen3.5-35B) • Egnet for: liten kontekst (<64K), økonomisk levedyktig
VII. 📌 Kjernekonklusjoner 1. Qwen3-Coder-Next-8bit egner seg for stor kontekst (≥32K) distribuert inferens Fordeler: Skalerbar til uendelig kontekst (multi-node aggregert minne) Ulemper: Ytelsen for liten kontekst er ikke like god som for enkeltkort-GPUer, og avkastningssyklusen er lang 2. Qwen3.5-35B (RTX 3090) egner seg for økonomisk resonnement i liten kontekst (<64K) Fordeler: 112 t/s høy ytelse, avkastning på 6 måneder Ulemper: Enkeltkortgrense (24GB VRAM), kan ikke utvides til 128K+ 3. Det finnes fortsatt flaskehalser i EXOs distribuerte resonnement Problem: Gossipsub-meldingen er for stor (1115KB) og noden må startes på nytt Løsning: Optimaliser nettverkslaget eller bytt til en annen kommunikasjonsprotokoll
VIII. Sammenligning av investeringsprioriteringer Mac Studio M5 (med M5 Ultra-brikke) forventes lansert i mars-juni 2026. Når det gjelder ytelse, sammenlignet med M3 Ultra, kan M5 Ultras promptprosessering (TTFT) akselereres 2-4 ganger, og genereringshastigheten (tokens/s) økes med omtrent 20-30 % (minnebåndbredden økes fra 800 GB/s til et høyere nivå, kombinert med Neural Accelerator for hver GPU-kjerne). For kvantiserte versjoner lik Qwen-modellen kan M5 Ultra støtte større kontekster (64K+ tokens) for å oppnå høyere gjennomstrømning i benchmarks (f.eks. store MoE-modeller opp til 150+ tok/s). Med tanke på at maskinvarekostnaden er lik (omtrent 4 000 dollar oppover), men ytelsen er forbedret, forventes ROI-en å bli forkortet til 8–12 måneder, noe som egner seg for høyintensive AI-utviklingsscenarier og har en høyere samlet anbefalingsindeks.
3,31K