"Qwen3-Coder-Next-8bit'in M3 Ultra üzerindeki EXO kıyaslama analizi" 1. Çekirdek verisi: M3 Ultra (512GB RAM) Dağıtık Çıkarım Donanım Yapılandırması • Tek düğüm: Apple M3 Ultra 512GB RAM (32 CPU çekirdeği, 80 GPU çekirdeği) • Çift düğüm: 2 × M3 Ultra (1024GB RAM toplama) • Model: Qwen3-Coder-Next-8bit (8B parametreleri, kuantize versiyon) Performans kıyaslamaları (token/s)
II. Ana mesajlar: 1. İsterli İşleme, düğüm sayısıyla doğrusal olarak genişler • 0.5K-8K bağlam: Tek düğüm zirveleri (60 t/s), çift düğüm azalmaları (-%3) • Sebep: Dağıtık iletişim > hesaplama hızlandırma faydaları • Sonuç: Küçük bağlamların dağıtılmasına gerek yoktur • 16K-64K bağlamı: Çift düğümler faydalanmaya başlıyor (+%2 ile +6%) • Sebep: KV Cache daha fazla bellek gerektirir, tek düğüm darboğazı • Sonuç: Büyük bağlamlı dağıtık akıl yürütme değerlidir 2. Üretim performans trendleri • Küçük model(8B) + küçük bağlam(<32K): Üretim daha yavaştır • Büyük bağlam (≥32K): Performans, temel içgörülerin gelişmesine başlar • Sebep: 8B modeli düşük hesaplama basıncına sahiptir ve dar boğaz bellek bant genişliği ile KV Önbellekte 3. /bench API • Standart OpenAI uç noktası: önbellek varsayılan olarak etkinleştirilmiş ve yanlış test sonuçlarına yol açıyor • /bench API: Yayın yok, sunucu ölçüm istatistiklerini geri döndürüyor (doğru) • Ana bulgular: Dağıtık çıkarım /bench ile test edilmelidir, aksi takdirde veri geçersiz olur
III. Qwen3.5-35B ile karşılaştırın
4. Teknik sonuç Dağıtık akıl yürütme için değer aralıkları • Küçük bağlam (<8K): Tek düğüm en iyisidir, ancak çift düğümler azalır (iletişim yükü) • Büyük bağlam (≥32K): Çift düğümler faydalanmaya başlar, +%6 artış 64K'da • 128K+ bağlam: Birden fazla düğüm gerektirir (testte 1115KB dedikodu sub mesajlarının çok büyük olması sorunuyla karşılaştım) Qwen3-Coder-Next-8bit vs Qwen3.5-35B:
5. EXO'nun darboğazı • 128K bağlam testi başarısız oldu: gossipsub mesajı çok büyük (1115KB) ve düğümün yeniden başlatılması gerekiyor • Sorun: Ağ katmanı, dağıtık çıkarım ölçeklenebilirliğini sınırlar • Çözüm: Mesaj sharding optimize edilmeli veya farklı bir iletişim protokolü kullanılmalıdır
6. Ekonomik modellerin karşılaştırması Seçenek A: M3 Ultra 512GB (Tek Düğüm) • Maliyet: $2000-3000 • Performans: 60 t/s (<8K) → 48 t/s (64K) • Uygulanabilir: Büyük bağlam (≥32K), tek bir düğüm yeterlidir Senaryo B: M3 Ultra × 2 (Çift Düğüm) • Maliyet: $4000-6000 • Performans: 59-51 t/s (+%6 tek düğüme göre, sadece 64K bağlamda) • Uygulanabilir: Çok büyük bağlam (≥128K) ve tek bir düğümde yetersiz bellek Senaryo C: RTX 3090 (tek kart) • Maliyet: $800-1000 (kullanılmış) • Performans: 112 t/s (sabit, Qwen3.5-35B) • Uygun: küçük bağlam (<64K), ekonomik olarak uygulanabilir
VII. 📌 Temel sonuçlar 1. Qwen3-Coder-Next-8bit, büyük bağlamlı (≥32K) dağıtık çıkarım için uygundur Faydalar: Sonsuz bağlama ölçeklenebilir (çok düğümlü toplam bellek) Dezavantajlar: Küçük bağlam performansı, tek kartlı GPU'lar kadar iyi değildir ve ROI döngüsü uzun 2. Qwen3.5-35B (RTX 3090), küçük bağlamda (<64K) ekonomik akıl yürütme için uygundur Avantajlar: 112 t/s yüksek performans, 6 ayda geri dönüş geri dönüşü Dezavantajlar: Tek kart limiti (24GB VRAM), 128K+ olarak genişletilemiyor 3. EXO'nun dağıtık mantığında hâlâ darboğazlar var Sorun: Gossipsub mesajı çok büyük (1115KB) ve düğümün yeniden başlatılması gerekiyor Çözüm: Ağ katmanını optimize etmek veya farklı bir iletişim protokolüne geçmek
VIII. Yatırım önceliklerinin karşılaştırılması Mac Studio M5 (M5 Ultra çipi ile) Mart-Haziran 2026 arasında piyasaya sürülmesi bekleniyor. Performans açısından, M3 Ultra'ya kıyasla M5 Ultra'nın prompt işleme (TTFT) 2-4 kat hızlandırılabilir ve üretim hızı (token/s) yaklaşık %20-30 artırılır (bellek bant genişliği 800GB/s'den daha yüksek seviyeye yükselir, her GPU çekirdeği için Neural Accelerator ile birleştirilir). Qwen modeline benzer kuantize versiyonlar için, M5 Ultra daha büyük bağlamları (64K+ token) destekleyebilir ve benchmarklarda daha yüksek veri verimliliği elde edebilir (örneğin, 150+ tok/s'ye kadar büyük MoE modelleri). Donanım maliyetinin benzer olması (yaklaşık $4.000 artış) ancak performansın iyileştirildiği göz önüne alındığında, yatırım getirisi 8-12 aya kısaltılması bekleniyor; bu da yüksek yoğunluklu yapay zeka geliştirme senaryoları için uygundur ve genel öneri endeksi daha yüksektir.
3,31K