Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Аналіз бенчмарку EXO Qwen3-Coder-Next-8bit на M3 Ultra"
1. Дані ядра: M3 Ultra (512 ГБ оперативної пам'яті) Конфігурація апаратного забезпечення розподіленого виведення • Один вузол: Apple M3 Ultra 512 ГБ оперативної пам'яті (32 ядра CPU, 80 ядер GPU)
• Подвійний вузол: 2 × M3 Ultra (агрегація оперативної пам'яті 1024 ГБ) • Модель: Qwen3-Coder-Next-8bit (8B параметри, квантована версія)
Бенчмарки продуктивності (токени/с)

II.
Ключові повідомлення:
1. Обробка підказок розширюється лінійно залежно від кількості вузлів
• Контекст 0,5K-8K: піки одновузла (60 т/с), подвійний вузол зменшується (-3%)
• Причина: розподілені накладні витрати на комунікації > переваги прискорення обчислень
• Висновок: Невеликі контексти не потребують розподілу
• Контекст 16K-64K: Подвійні вузли починають отримувати вигоду (+2% до +6%)
• Причина: KV Cache потребує більше пам'яті, вузьке місце вузького вузла
• Висновок: Розподілене мислення у великому контексті є цінним
2.
Тенденції продуктивності генерації
• Мала модель (8B) + малий контекст(<32K): Генерація відбувається повільніше
• Великий контекст (≥32K): Продуктивність починає покращувати ключові інсайти
• Причина: модель 8B має низький обчислювальний тиск, а вузьке місце — пропускна здатність пам'яті та кеш KV
3.
/bench API
• Стандартна кінцева точка OpenAI: кеш увімкнений за замовчуванням, що призводить до неправильних результатів тесту
• /bench API: Без стрімінгу, поверніть статистику вимірювання сервера (точно)
• Ключові висновки: розподілене висновки має бути перевірене за допомогою /bench, інакше дані є недійсними
III.
Порівняйте з Qwen3.5-35B

4.
Технічний висновок
Інтервали значень для розподіленого мислення
• Малий контекст (<8K): оптимальний одновузол для вузлів, але подвійні вузли зменшуються (накладні витрати на комунікацію) • Великий контекст (≥32K): Подвійні вузли починають отримувати вигоду, +6% зростають при 64K • 128K+ контекст: Потрібен кілька вузлів (стикався з проблемою 1115KB gossipsub-повідомлень у тесті)
Qwen3-Coder-Next-8bit проти Qwen3.5-35B:

5.
Вузьке місце EXO
• Тест контексту 128K проваливо: повідомлення gossipsub занадто велике (1115KB), і вузол потрібно перезапустити
• Проблема: мережевий рівень обмежує масштабованість розподіленого виведення
• Розв'язання: потрібно оптимізувати шардинг повідомлень або використовувати інший протокол зв'язку
6.
Порівняння економічних моделей
Варіант А:
M3 Ultra 512GB (Один вузол)
• Вартість: $2000-3000
• Продуктивність: 60 т/с (<8K) → 48 т/с (64K)
• Застосовно: Великий контекст (≥32K), достатньо одного вузла
Сценарій B:
M3 Ultra × 2 (Подвійний вузол)
• Вартість: $4000-6000
• Продуктивність: 59-51 т/с (+6% проти одного вузла, 64K лише в контексті)
• Застосовно: дуже великий контекст (≥128K) з недостатньою пам'яттю на одному вузлі
Сценарій C:
RTX 3090 (одна плата)
• Вартість: $800-1000 (вживаний)
• Продуктивність: 112 т/с (фіксовано, Qwen3.5-35B)
• Підходить для: невеликого контексту (<64K), економічно вигідно

VII.
📌 Основні висновки
1. Qwen3-Coder-Next-8bit підходить для розподіленого висновку з великим контекстом (≥32K)
Переваги: масштабованість до нескінченного контексту (багатовузлова агрегована пам'ять)
Недоліки: Продуктивність у малому контексті гірша, ніж у GPU з однією картою, а цикл ROI довгий
2. Qwen3.5-35B (RTX 3090) підходить для економічного міркування в малому контексті (<64K)
Переваги: 112 t/s висока продуктивність, відданість ROI за 6 місяців
Недоліки: обмеження на одну карту (24GB VRAM), не можна розширити до 128K+
3. У розподіленому мисленні EXO досі існують вузькі місця
Проблема: повідомлення gossipsub занадто велике (1115 КБ), і вузол потрібно перезапустити
Рішення: оптимізувати мережевий рівень або перейти на інший протокол зв'язку
VIII.
Порівняння інвестиційних пріоритетів
Mac Studio M5 (з чипом M5 Ultra) очікується до випуску в березні-червні 2026 року. Щодо продуктивності, порівняно з M3 Ultra, обробка запитів (TTFT) у M5 Ultra може бути прискорена у 2-4 рази, а швидкість генерації (токени/с) збільшена приблизно на 20-30% (пропускна здатність пам'яті збільшена з 800GB/s до вищого рівня, у поєднанні з Neural Accelerator для кожного ядра GPU). Для квантованих версій, подібних до моделі Qwen, M5 Ultra може підтримувати більші контексти (токени 64K+) для досягнення вищої пропускної здатності у бенчмарках (наприклад, великі моделі MoE до 150+ tok/s). Враховуючи, що вартість апаратного забезпечення схожа (близько $4,000 вище), але продуктивність покращена, очікується, що рентабельність буде скорочена до 8-12 місяців, що підходить для високоінтенсивних сценаріїв розробки ШІ та має вищий загальний індекс рекомендацій.

3,3K
Найкращі
Рейтинг
Вибране
