"Qwen3-Coder-Next-8bit analýza EXO benchmarku na M3 Ultra" 1. Jádrová data: M3 Ultra (512GB RAM) Konfigurace distribuovaného inferenčního hardwaru • Jeden uzel: Apple M3 Ultra 512GB RAM (32 CPU jader, 80 GPU jader) • Duální uzel: 2 × M3 Ultra (agregace 1024GB RAM) • Model: Qwen3-Coder-Next-8bit (8B parametry, kvantovaná verze) Výkonnostní benchmarky (tokeny/s)
II. Klíčová sdělení: 1. Zpracování promptů se lineárně rozšiřuje s počtem uzlů • Kontext 0,5K-8K: Špičky jednoho uzlu (60 t/s), poklesy dvojitých uzlů (-3 %) • Příčina: Režijní režie distribuované komunikace > výhody zrychlení výpočetních výpočtů • Závěr: Malé kontexty nemusí být distribuovány • Kontext 16K-64K: Dvojí uzly začínají těžit (+2 % až +6 %) • Příčina: KV cache vyžaduje více paměti, úzké hrdlo jednoho uzlu • Závěr: Distribuované uvažování ve velkém kontextu je cenné 2. Trendy výkonu generací • Malý model (8B) + malý kontext (<32K): Generování je pomalejší • Velký kontext (≥32K): Výkon začíná zlepšovat klíčové poznatky • Důvod: Model 8B má nízkou výpočetní zátěž a úzké hrdlo spočívá v propustnosti paměti a KV cache 3. /bench API • Standardní OpenAI endpoint: cache je ve výchozím nastavení povolena, což vede k nesprávným výsledkům testů • /bench API: Žádné streamování, vrací měření serveru (přesné) • Klíčová zjištění: Distribuovaná inference musí být testována pomocí /bench, jinak jsou data neplatná
III. Porovnejte s Qwen3.5-35B
4. Technické závěry Hodnotové intervaly pro distribuované uvažování • Malý kontext (<8K): Optimální je jeden uzel, ale duální uzly jsou sníženy (režijní režie) • Velký kontext (≥32K): Dvojí uzly začínají těžit, +6% nárůst při 64K • 128K+ kontext: Vyžaduje více uzlů (v testu se setkal s problémem s příliš velkými gossipsub zprávami o velikosti 1115KB) Qwen3-Coder-Next-8bit vs Qwen3.5-35B:
5. Úzké hrdlo EXO • Test 128K kontextu selhal: zpráva gossipsub je příliš velká (1115KB) a uzel je třeba restartovat • Problém: Síťová vrstva omezuje škálovatelnost distribuované inference • Rozlišení: Je třeba optimalizovat shardování zpráv nebo použít jiný komunikační protokol
6. Srovnání ekonomických modelů Možnost A: M3 Ultra 512GB (jeden uzel) • Cena: 2000–3000 USD • Výkon: 60 t/s (<8K) → 48 t/s (64K) • Použitelné: Velký kontext (≥32K), stačí jeden uzel Scénář B: M3 Ultra × 2 (Dual Node) • Cena: 4000-6000 USD • Výkon: 59-51 t/s (+6 % vs jeden uzel, pouze 64K kontext) • Použitelné: Velmi velký kontext (≥128K) s nedostatečnou pamětí na jednom uzlu Scénář C: RTX 3090 (jedna karta) • Cena: 800–1000 $ (použité) • Výkon: 112 t/s (pevné, Qwen3.5-35B) • Vhodné pro: malý kontext (64 <K), ekonomicky výhodné
VII. 📌 Základní závěry 1. Qwen3-Coder-Next-8bit je vhodný pro distribuovanou inferenci s velkým kontextem (≥32K) Výhody: Škálovatelný do nekonečného kontextu (víceuzlová agregovaná paměť) Nevýhody: Výkon s malým kontextem není tak dobrý jako u GPU s jednou kartou a cyklus návratnosti investic je dlouhý 2. Qwen3.5-35B (RTX 3090) je vhodný pro ekonomické uvažování v malém kontextu (<64K) Výhody: vysoký výkon 112 t/s, návratnost investic za 6 měsíců Nevýhody: Limit na jednu kartu (24GB VRAM), nelze jej rozšířit na 128K+ 3. V distribuovaném uvažování EXO stále existují úzká místa Problém: Gossipsub zpráva je příliš velká (1115KB) a uzel je potřeba restartovat Řešení: Optimalizovat síťovou vrstvu nebo přepnout na jiný komunikační protokol
VIII. Srovnání investičních priorit Mac Studio M5 (s čipem M5 Ultra) by měl být uveden na trh v březnu až červnu 2026. Co se týče výkonu, ve srovnání s M3 Ultra lze zpracování promptů (TTFT) M5 Ultra zrychlit 2–4krát a rychlost generování (tokeny/s) je zvýšena asi o 20–30 % (šířka pásma paměti se zvýšila z 800GB/s na vyšší úroveň, v kombinaci s Neural Acceleratorem pro každé jádro GPU). Pro kvantované verze podobné modelu Qwen může M5 Ultra podporovat větší kontexty (64K+ tokenů) pro dosažení vyšší propustnosti v benchmarkech (např. velké modely MoE až do 150+ tok/s). Vzhledem k tomu, že náklady na hardware jsou podobné (asi o 4 000 USD vyšší), ale výkon je zlepšen, očekává se zkrácení návratnosti investic na 8–12 měsíců, což je vhodné pro vysoce intenzivní vývoj AI a má vyšší celkový index doporučení.
3,29K