《Analiza benchmarku EXO Qwen3-Coder-Next-8bit na M3 Ultra》 I. Kluczowe dane: M3 Ultra (512GB RAM) konfiguracja sprzętowa do rozproszonego wnioskowania • Pojedynczy węzeł: Apple M3 Ultra 512GB RAM (32 rdzenie CPU, 80 rdzeni GPU) • Podwójny węzeł: 2 × M3 Ultra (1024GB RAM agregowane) • Model: Qwen3-Coder-Next-8bit (8B parametrów, wersja skwantyzowana) Wyniki benchmarku (tokens/s)
II. Kluczowe informacje: 1. Przetwarzanie promptów rozszerza się liniowo wraz z liczbą węzłów • 0.5K-8K kontekst: pojedynczy węzeł osiągnął szczyt (60 t/s), a dwa węzły wręcz spadły (-3%) • Powód: koszty komunikacji rozproszonej > zyski z przyspieszenia obliczeń • Wniosek: mały kontekst nie wymaga rozproszenia • 16K-64K kontekst: dwa węzły zaczynają przynosić korzyści (+2% do +6%) • Powód: pamięć podręczna KV wymaga więcej pamięci, wąskie gardło pojedynczego węzła • Wniosek: duży kontekst ma wartość w rozproszonym wnioskowaniu 2. Trendy wydajności generacji • Mały model (8B) + mały kontekst (<32K): generacja jest wolna • Duży kontekst (≥32K): wydajność zaczyna się poprawiać, kluczowe spostrzeżenia • Powód: model 8B ma małe obciążenie obliczeniowe, wąskie gardło w przepustowości pamięci i pamięci podręcznej KV 3. Znaczenie API /bench • Standardowy punkt końcowy OpenAI: domyślnie włączona pamięć podręczna, co prowadzi do błędnych wyników testów • API /bench: brak strumieniowania, zwraca statystyki pomiarowe serwera (dokładne) • Kluczowe odkrycie: testowanie rozproszonego wnioskowania musi odbywać się za pomocą /bench, w przeciwnym razie dane są nieważne.
Trzy, porównanie z Qwen3.5-35B
Cztery, Wnioski techniczne Zakres wartości rozproszonego wnioskowania • Mały kontekst (<8K): optymalny dla jednego węzła, a dla dwóch węzłów wręcz spadek (koszty komunikacji) • Duży kontekst (≥32K): korzyści zaczynają się przy dwóch węzłach, przy 64K wzrost o +6% • Kontekst 128K+: wymaga wielu węzłów (napotkano problem zbyt dużych wiadomości gossipsub o rozmiarze 1115KB) Qwen3-Coder-Next-8bit vs Qwen3.5-35B:
Pięć, Wąskie gardło EXO • Test kontekstu 128K nie powiódł się: wiadomość gossipsub jest zbyt duża (1115KB), konieczne jest ponowne uruchomienie węzła • Problem: ograniczenia warstwy sieciowej ograniczają skalowalność rozproszonego wnioskowania • Rozwiązanie: konieczna jest optymalizacja fragmentacji wiadomości lub zmiana na inny protokół komunikacyjny
VI. Porównanie modeli ekonomicznych Opcja A: M3 Ultra 512GB (jedno węzeł) • Koszt: 2000-3000 $ • Wydajność: 60 t/s (<8K) → 48 t/s (64K) • Zastosowanie: duży kontekst (≥32K), wystarczy jeden węzeł Opcja B: M3 Ultra × 2 (dwa węzły) • Koszt: 4000-6000 $ • Wydajność: 59-51 t/s (+6% w porównaniu do jednego węzła, tylko 64K kontekst) • Zastosowanie: bardzo duży kontekst (≥128K), pamięć jednego węzła niewystarczająca Opcja C: RTX 3090 (jedna karta) • Koszt: 800-1000 $ (używana) • Wydajność: 112 t/s (stała, Qwen3.5-35B) • Zastosowanie: mały kontekst (<64K), ekonomicznie opłacalne
Siedem, 📌 Kluczowe wnioski 1. Qwen3-Coder-Next-8bit nadaje się do dużego kontekstu (≥32K) rozproszonego wnioskowania Zalety: możliwość rozszerzenia do nieskończonego kontekstu (agregacja pamięci w wielu węzłach) Wady: mały kontekst ma gorszą wydajność niż pojedyncza karta GPU, długi okres ROI 2. Qwen3.5-35B (RTX 3090) nadaje się do małego kontekstu (<64K) ekonomicznego wnioskowania Zalety: 112 t/s wysoka wydajność, ROI zwrot z inwestycji w 6 miesięcy Wady: limit na pojedynczej karcie (24GB VRAM), brak możliwości rozszerzenia do 128K+ 3. Rozproszone wnioskowanie EXO wciąż ma wąskie gardła Problem: zbyt duża wiadomość gossipsub (1115KB), konieczność ponownego uruchomienia węzła Rozwiązanie: optymalizacja warstwy sieciowej lub zmiana na inny protokół komunikacyjny
Osiem, Porównanie priorytetów inwestycyjnych Mac Studio M5 (z chipem M5 Ultra) ma być wydany w okresie od marca do czerwca 2026 roku. Pod względem wydajności, w zadaniach wnioskowania LLM, w porównaniu do M3 Ultra, przetwarzanie wskazówek (TTFT) w M5 Ultra może osiągnąć przyspieszenie od 2 do 4 razy, a prędkość generowania (tokens/s) wzrasta o około 20-30% (przepustowość pamięci wzrasta z 800 GB/s do wyższego poziomu, w połączeniu z Neural Accelerator dla każdego rdzenia GPU). Dla skwantyzowanej wersji modelu podobnego do Qwen, M5 Ultra może wspierać większy kontekst (64K+ tokens), osiągając wyższą przepustowość w testach porównawczych (np. duże modele MoE osiągają 150+ tok/s). Biorąc pod uwagę podobne koszty sprzętu (około 4000 USD) ale z poprawioną wydajnością, ROI ma być skrócone do 8-12 miesięcy, co czyni go odpowiednim dla intensywnych scenariuszy rozwoju AI, a ogólny wskaźnik rekomendacji jest wyższy.
3,3K