《Qwen3-Coder-Next-8bit auf M3 Ultra EXO-Benchmark-Analyse》 I. Kern-Daten: M3 Ultra (512GB RAM) verteilte Inferenz Hardware-Konfiguration • Einzelknoten: Apple M3 Ultra 512GB RAM (32 CPU-Kerne, 80 GPU-Kerne) • Doppelknoten: 2 × M3 Ultra (1024GB RAM aggregiert) • Modell: Qwen3-Coder-Next-8bit (8B Parameter, quantisierte Version) Leistungsbenchmark (tokens/s)
Zwei, Wichtige Informationen: 1. Prompt-Verarbeitung skaliert linear mit der Anzahl der Knoten • 0,5K-8K Kontext: Ein einzelner Knoten hat das Maximum erreicht (60 t/s), bei zwei Knoten sinkt die Leistung sogar (-3%) • Grund: Verteilungskosten > Berechnungsgeschwindigkeit • Fazit: Kleiner Kontext benötigt keine Verteilung • 16K-64K Kontext: Zwei Knoten beginnen zu profitieren (+2% bis +6%) • Grund: KV-Cache benötigt mehr Speicher, Engpass bei einem Knoten • Fazit: Große Kontexte haben einen Wert in der verteilten Inferenz 2. Leistungstrends der Generation • Kleines Modell (8B) + kleiner Kontext (<32K): Generation ist langsam • Großer Kontext (≥32K): Leistung beginnt sich zu verbessern, entscheidende Erkenntnisse • Grund: 8B-Modell hat geringen Rechenaufwand, Engpass liegt im Speicherbandbreite und KV-Cache 3. Die Bedeutung der /bench API • Standard OpenAI-Endpunkt: Standardmäßig Cache aktiviert, was zu fehlerhaften Testergebnissen führt • /bench API: Kein Streaming, gibt Servermessdaten zurück (genau) • Wichtige Entdeckung: Verteilte Inferenz muss mit /bench getestet werden, sonst sind die Daten ungültig
Drei, im Vergleich zu Qwen3.5-35B
Vier, Technische Schlussfolgerung Wertbereich der verteilten Inferenz • Kleiner Kontext (<8K): Einzelknoten optimal, bei zwei Knoten sinkt die Leistung (Kommunikationsaufwand) • Großer Kontext (≥32K): Bei zwei Knoten beginnt der Nutzen, bei 64K Verbesserung um +6% • 128K+ Kontext: Mehrere Knoten erforderlich (bei Tests trat das Problem auf, dass 1115KB gossipsub-Nachrichten zu groß sind) Qwen3-Coder-Next-8bit vs Qwen3.5-35B:
Fünf, EXO's Engpass • 128K Kontext-Test fehlgeschlagen: gossipsub-Nachricht zu groß (1115KB), Knoten muss neu gestartet werden • Problem: Netzwerkebene beschränkt die Skalierbarkeit der verteilten Inferenz • Lösung: Nachrichtenfragmentierung optimieren oder ein anderes Kommunikationsprotokoll verwenden
Sechs, Vergleich der Wirtschaftsmodelle Option A: M3 Ultra 512GB (Einzelknoten) • Kosten: 2000-3000 $ • Leistung: 60 t/s (<8K) → 48 t/s (64K) • Anwendbar: großer Kontext (≥32K), Einzelknoten ausreichend Option B: M3 Ultra × 2 (Doppelknoten) • Kosten: 4000-6000 $ • Leistung: 59-51 t/s (+6 % gegenüber Einzelknoten, nur 64K Kontext) • Anwendbar: sehr großer Kontext (≥128K), Einzelknoten-Speicher nicht ausreichend Option C: RTX 3090 (Einzelkarte) • Kosten: 800-1000 $ (gebraucht) • Leistung: 112 t/s (fest, Qwen3.5-35B) • Anwendbar: kleiner Kontext (<64K), wirtschaftlich machbar
Sieben, 📌 Kernschlussfolgerungen 1. Qwen3-Coder-Next-8bit eignet sich für große Kontexte (≥32K) verteilte Inferenz. Vorteile: Kann auf unbegrenzte Kontexte (Multi-Node-Speicheraggregation) skaliert werden. Nachteile: Kleine Kontexte haben eine schlechtere Leistung als eine einzelne GPU, ROI-Zyklus ist lang. 2. Qwen3.5-35B (RTX 3090) eignet sich für kleine Kontexte (<64K) wirtschaftliche Inferenz. Vorteile: 112 t/s hohe Leistung, ROI von 6 Monaten. Nachteile: Einzelkartenobergrenze (24GB VRAM), kann nicht auf 128K+ skaliert werden. 3. Die verteilte Inferenz von EXO hat weiterhin Engpässe. Problem: Gossipsub-Nachrichten sind zu groß (1115KB), Knoten müssen neu gestartet werden. Lösung: Optimierung der Netzwerkschicht oder Verwendung eines anderen Kommunikationsprotokolls.
Acht, Vergleich der Investitionsprioritäten Der Mac Studio M5 (ausgestattet mit dem M5 Ultra-Chip) wird voraussichtlich zwischen März und Juni 2026 veröffentlicht. In Bezug auf die Leistung kann der M5 Ultra bei LLM-Inferenzaufgaben im Vergleich zum M3 Ultra eine Beschleunigung der Prompt-Verarbeitung (TTFT) von 2-4x erreichen, die Generierungsgeschwindigkeit (tokens/s) steigt um etwa 20-30% (der Speicherbandbreite wird von 800GB/s auf ein höheres Niveau angehoben, kombiniert mit dem Neural Accelerator jedes GPU-Kerns). Für quantisierte Versionen ähnlicher Modelle wie Qwen könnte der M5 Ultra einen größeren Kontext (64K+ tokens) unterstützen und in Benchmark-Tests eine höhere Durchsatzrate (z. B. große MoE-Modelle erreichen über 150 tok/s). Angesichts der ähnlichen Hardwarekosten (ca. 4000 $) aber der Leistungssteigerung wird eine Verkürzung des ROI auf 8-12 Monate erwartet, was ihn für hochintensive AI-Entwicklungsszenarien geeignet macht, insgesamt eine höhere Empfehlungsrate.
3,3K