《Qwen3-Coder-Next-8bit на M3 Ultra: анализ EXO бенчмарка》 1. Основные данные: M3 Ultra (512 ГБ ОЗУ) распределенное выводное оборудование • Один узел: Apple M3 Ultra 512 ГБ ОЗУ (32 ядра CPU, 80 ядер GPU) • Два узла: 2 × M3 Ultra (агрегированные 1024 ГБ ОЗУ) • Модель: Qwen3-Coder-Next-8bit (8B параметров, версия с квантованием) Бенчмарк производительности (токены/с)
二、 关键信息: 1.Prompt Processing 随节点数线性扩展 • 0.5K-8K контекст: один узел достиг пика (60 t/s), два узла наоборот снизились (-3%) • Причина: затраты на распределенную связь > выгода от ускорения вычислений • Вывод: маленький контекст не требует распределенной обработки • 16K-64K контекст: два узла начинают получать выгоду (+2% до +6%) • Причина: KV Cache требует больше памяти, узкое место на одном узле • Вывод: большой контекст имеет ценность для распределенного вывода 2. Тенденции производительности генерации • Маленькая модель (8B) + маленький контекст (<32K): генерация медленная • Большой контекст (≥32K): производительность начинает улучшаться, ключевые инсайты • Причина: модель 8B имеет небольшое вычислительное давление, узкое место в пропускной способности памяти и KV Cache 3. Важность /bench API • Стандартная конечная точка OpenAI: кэш включен по умолчанию, что приводит к ошибочным результатам тестирования • /bench API: без стриминга, возвращает статистику измерений сервера (точно) • Ключевое открытие: тестирование распределенного вывода должно использовать /bench, иначе данные недействительны
Три, в сравнении с Qwen3.5-35B
Четыре, Техническое заключение Ценовой диапазон распределенного вывода • Маленький контекст (<8K): оптимально для одного узла, при двух узлах наоборот ухудшается (затраты на связь) • Большой контекст (≥32K): два узла начинают приносить пользу, при 64K улучшение +6% • Контекст 128K+: требуется несколько узлов (в тестах возникла проблема с сообщениями gossipsub размером 1115KB) Qwen3-Coder-Next-8bit против Qwen3.5-35B:
Пять, Бутылочное горлышко EXO • Тест с контекстом 128K не удался: сообщение gossipsub слишком велико (1115KB), требуется перезагрузка узла • Проблема: ограничения сетевого уровня ограничивают масштабируемость распределенного вывода • Решение: необходимо оптимизировать фрагментацию сообщений или использовать другой протокол связи
Шесть, Сравнение экономических моделей Вариант A: M3 Ultra 512GB (один узел) • Стоимость: $2000-3000 • Производительность: 60 t/s (<8K) → 48 t/s (64K) • Применение: большой контекст (≥32K), достаточно одного узла Вариант B: M3 Ultra × 2 (два узла) • Стоимость: $4000-6000 • Производительность: 59-51 t/s (+6% по сравнению с одним узлом, только 64K контекст) • Применение: сверхбольшой контекст (≥128K), недостаточно памяти в одном узле Вариант C: RTX 3090 (одна карта) • Стоимость: $800-1000 (б/у) • Производительность: 112 t/s (фиксированная, Qwen3.5-35B) • Применение: маленький контекст (<64K), экономически целесообразно
七、 📌 Основные выводы 1. Qwen3-Coder-Next-8bit подходит для больших контекстов (≥32K) распределенного вывода Преимущества: может быть расширен до бесконечного контекста (агрегация памяти на нескольких узлах) Недостатки: производительность при малом контексте хуже, чем у одного GPU, длительный срок окупаемости 2. Qwen3.5-35B (RTX 3090) подходит для малых контекстов (<64K) экономичного вывода Преимущества: 112 t/s высокая производительность, срок окупаемости 6 месяцев Недостатки: ограничение на одном графическом процессоре (24 ГБ VRAM), невозможно расширить до 128K+ 3. Распределенный вывод EXO все еще имеет узкие места Проблема: сообщения gossipsub слишком большие (1115KB), необходимо перезапустить узел Решение: оптимизировать сетевой уровень или использовать другой протокол связи
Восемь, Сравнение приоритетов инвестиций Mac Studio M5 (с чипом M5 Ultra) ожидается к выпуску с марта по июнь 2026 года. Что касается производительности, в задачах вывода LLM, по сравнению с M3 Ultra, обработка подсказок (TTFT) может быть ускорена в 2-4 раза, скорость генерации (токены/с) увеличивается примерно на 20-30% (пропускная способность памяти увеличивается с 800 ГБ/с до более высокого уровня, в сочетании с нейронным ускорителем для каждого ядра GPU). Для квантованных версий моделей, подобных Qwen, M5 Ultra может поддерживать больший контекст (64K+ токенов) и достигать более высокой пропускной способности в бенчмарках (например, крупные модели MoE достигают 150+ токенов/с). Учитывая схожие затраты на оборудование (примерно от 4000 долларов), но с увеличением производительности, ожидается, что срок окупаемости сократится до 8-12 месяцев, что делает его подходящим для высокоинтенсивных сценариев разработки ИИ, с общим более высоким индексом рекомендаций.
3,31K