"Аналіз бенчмарку EXO Qwen3-Coder-Next-8bit на M3 Ultra" 1. Дані ядра: M3 Ultra (512 ГБ оперативної пам'яті) Конфігурація апаратного забезпечення розподіленого виведення • Один вузол: Apple M3 Ultra 512 ГБ оперативної пам'яті (32 ядра CPU, 80 ядер GPU) • Подвійний вузол: 2 × M3 Ultra (агрегація оперативної пам'яті 1024 ГБ) • Модель: Qwen3-Coder-Next-8bit (8B параметри, квантована версія) Бенчмарки продуктивності (токени/с)
II. Ключові повідомлення: 1. Обробка підказок розширюється лінійно залежно від кількості вузлів • Контекст 0,5K-8K: піки одновузла (60 т/с), подвійний вузол зменшується (-3%) • Причина: розподілені накладні витрати на комунікації > переваги прискорення обчислень • Висновок: Невеликі контексти не потребують розподілу • Контекст 16K-64K: Подвійні вузли починають отримувати вигоду (+2% до +6%) • Причина: KV Cache потребує більше пам'яті, вузьке місце вузького вузла • Висновок: Розподілене мислення у великому контексті є цінним 2. Тенденції продуктивності генерації • Мала модель (8B) + малий контекст(<32K): Генерація відбувається повільніше • Великий контекст (≥32K): Продуктивність починає покращувати ключові інсайти • Причина: модель 8B має низький обчислювальний тиск, а вузьке місце — пропускна здатність пам'яті та кеш KV 3. /bench API • Стандартна кінцева точка OpenAI: кеш увімкнений за замовчуванням, що призводить до неправильних результатів тесту • /bench API: Без стрімінгу, поверніть статистику вимірювання сервера (точно) • Ключові висновки: розподілене висновки має бути перевірене за допомогою /bench, інакше дані є недійсними
III. Порівняйте з Qwen3.5-35B
4. Технічний висновок Інтервали значень для розподіленого мислення • Малий контекст (<8K): оптимальний одновузол для вузлів, але подвійні вузли зменшуються (накладні витрати на комунікацію) • Великий контекст (≥32K): Подвійні вузли починають отримувати вигоду, +6% зростають при 64K • 128K+ контекст: Потрібен кілька вузлів (стикався з проблемою 1115KB gossipsub-повідомлень у тесті) Qwen3-Coder-Next-8bit проти Qwen3.5-35B:
5. Вузьке місце EXO • Тест контексту 128K проваливо: повідомлення gossipsub занадто велике (1115KB), і вузол потрібно перезапустити • Проблема: мережевий рівень обмежує масштабованість розподіленого виведення • Розв'язання: потрібно оптимізувати шардинг повідомлень або використовувати інший протокол зв'язку
6. Порівняння економічних моделей Варіант А: M3 Ultra 512GB (Один вузол) • Вартість: $2000-3000 • Продуктивність: 60 т/с (<8K) → 48 т/с (64K) • Застосовно: Великий контекст (≥32K), достатньо одного вузла Сценарій B: M3 Ultra × 2 (Подвійний вузол) • Вартість: $4000-6000 • Продуктивність: 59-51 т/с (+6% проти одного вузла, 64K лише в контексті) • Застосовно: дуже великий контекст (≥128K) з недостатньою пам'яттю на одному вузлі Сценарій C: RTX 3090 (одна плата) • Вартість: $800-1000 (вживаний) • Продуктивність: 112 т/с (фіксовано, Qwen3.5-35B) • Підходить для: невеликого контексту (<64K), економічно вигідно
VII. 📌 Основні висновки 1. Qwen3-Coder-Next-8bit підходить для розподіленого висновку з великим контекстом (≥32K) Переваги: масштабованість до нескінченного контексту (багатовузлова агрегована пам'ять) Недоліки: Продуктивність у малому контексті гірша, ніж у GPU з однією картою, а цикл ROI довгий 2. Qwen3.5-35B (RTX 3090) підходить для економічного міркування в малому контексті (<64K) Переваги: 112 t/s висока продуктивність, відданість ROI за 6 місяців Недоліки: обмеження на одну карту (24GB VRAM), не можна розширити до 128K+ 3. У розподіленому мисленні EXO досі існують вузькі місця Проблема: повідомлення gossipsub занадто велике (1115 КБ), і вузол потрібно перезапустити Рішення: оптимізувати мережевий рівень або перейти на інший протокол зв'язку
VIII. Порівняння інвестиційних пріоритетів Mac Studio M5 (з чипом M5 Ultra) очікується до випуску в березні-червні 2026 року. Щодо продуктивності, порівняно з M3 Ultra, обробка запитів (TTFT) у M5 Ultra може бути прискорена у 2-4 рази, а швидкість генерації (токени/с) збільшена приблизно на 20-30% (пропускна здатність пам'яті збільшена з 800GB/s до вищого рівня, у поєднанні з Neural Accelerator для кожного ядра GPU). Для квантованих версій, подібних до моделі Qwen, M5 Ultra може підтримувати більші контексти (токени 64K+) для досягнення вищої пропускної здатності у бенчмарках (наприклад, великі моделі MoE до 150+ tok/s). Враховуючи, що вартість апаратного забезпечення схожа (близько $4,000 вище), але продуктивність покращена, очікується, що рентабельність буде скорочена до 8-12 місяців, що підходить для високоінтенсивних сценаріїв розробки ШІ та має вищий загальний індекс рекомендацій.
3,3K