Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
《Qwen3-Coder-Next-8bit на M3 Ultra: анализ EXO бенчмарка》
1. Основные данные: M3 Ultra (512 ГБ ОЗУ) распределенное выводное оборудование • Один узел: Apple M3 Ultra 512 ГБ ОЗУ (32 ядра CPU, 80 ядер GPU)
• Два узла: 2 × M3 Ultra (агрегированные 1024 ГБ ОЗУ) • Модель: Qwen3-Coder-Next-8bit (8B параметров, версия с квантованием)
Бенчмарк производительности (токены/с)

二、
关键信息:
1.Prompt Processing 随节点数线性扩展
• 0.5K-8K контекст: один узел достиг пика (60 t/s), два узла наоборот снизились (-3%)
• Причина: затраты на распределенную связь > выгода от ускорения вычислений
• Вывод: маленький контекст не требует распределенной обработки
• 16K-64K контекст: два узла начинают получать выгоду (+2% до +6%)
• Причина: KV Cache требует больше памяти, узкое место на одном узле
• Вывод: большой контекст имеет ценность для распределенного вывода
2.
Тенденции производительности генерации
• Маленькая модель (8B) + маленький контекст (<32K): генерация медленная
• Большой контекст (≥32K): производительность начинает улучшаться, ключевые инсайты
• Причина: модель 8B имеет небольшое вычислительное давление, узкое место в пропускной способности памяти и KV Cache
3.
Важность /bench API
• Стандартная конечная точка OpenAI: кэш включен по умолчанию, что приводит к ошибочным результатам тестирования
• /bench API: без стриминга, возвращает статистику измерений сервера (точно)
• Ключевое открытие: тестирование распределенного вывода должно использовать /bench, иначе данные недействительны
Три,
в сравнении с Qwen3.5-35B

Четыре,
Техническое заключение
Ценовой диапазон распределенного вывода
• Маленький контекст (<8K): оптимально для одного узла, при двух узлах наоборот ухудшается (затраты на связь) • Большой контекст (≥32K): два узла начинают приносить пользу, при 64K улучшение +6% • Контекст 128K+: требуется несколько узлов (в тестах возникла проблема с сообщениями gossipsub размером 1115KB)
Qwen3-Coder-Next-8bit против Qwen3.5-35B:

Пять,
Бутылочное горлышко EXO
• Тест с контекстом 128K не удался: сообщение gossipsub слишком велико (1115KB), требуется перезагрузка узла
• Проблема: ограничения сетевого уровня ограничивают масштабируемость распределенного вывода
• Решение: необходимо оптимизировать фрагментацию сообщений или использовать другой протокол связи
Шесть,
Сравнение экономических моделей
Вариант A:
M3 Ultra 512GB (один узел)
• Стоимость: $2000-3000
• Производительность: 60 t/s (<8K) → 48 t/s (64K)
• Применение: большой контекст (≥32K), достаточно одного узла
Вариант B:
M3 Ultra × 2 (два узла)
• Стоимость: $4000-6000
• Производительность: 59-51 t/s (+6% по сравнению с одним узлом, только 64K контекст)
• Применение: сверхбольшой контекст (≥128K), недостаточно памяти в одном узле
Вариант C:
RTX 3090 (одна карта)
• Стоимость: $800-1000 (б/у)
• Производительность: 112 t/s (фиксированная, Qwen3.5-35B)
• Применение: маленький контекст (<64K), экономически целесообразно

七、
📌 Основные выводы
1. Qwen3-Coder-Next-8bit подходит для больших контекстов (≥32K) распределенного вывода
Преимущества: может быть расширен до бесконечного контекста (агрегация памяти на нескольких узлах)
Недостатки: производительность при малом контексте хуже, чем у одного GPU, длительный срок окупаемости
2. Qwen3.5-35B (RTX 3090) подходит для малых контекстов (<64K) экономичного вывода
Преимущества: 112 t/s высокая производительность, срок окупаемости 6 месяцев
Недостатки: ограничение на одном графическом процессоре (24 ГБ VRAM), невозможно расширить до 128K+
3. Распределенный вывод EXO все еще имеет узкие места
Проблема: сообщения gossipsub слишком большие (1115KB), необходимо перезапустить узел
Решение: оптимизировать сетевой уровень или использовать другой протокол связи
Восемь,
Сравнение приоритетов инвестиций
Mac Studio M5 (с чипом M5 Ultra) ожидается к выпуску с марта по июнь 2026 года. Что касается производительности, в задачах вывода LLM, по сравнению с M3 Ultra, обработка подсказок (TTFT) может быть ускорена в 2-4 раза, скорость генерации (токены/с) увеличивается примерно на 20-30% (пропускная способность памяти увеличивается с 800 ГБ/с до более высокого уровня, в сочетании с нейронным ускорителем для каждого ядра GPU). Для квантованных версий моделей, подобных Qwen, M5 Ultra может поддерживать больший контекст (64K+ токенов) и достигать более высокой пропускной способности в бенчмарках (например, крупные модели MoE достигают 150+ токенов/с). Учитывая схожие затраты на оборудование (примерно от 4000 долларов), но с увеличением производительности, ожидается, что срок окупаемости сократится до 8-12 месяцев, что делает его подходящим для высокоинтенсивных сценариев разработки ИИ, с общим более высоким индексом рекомендаций.

3,31K
Топ
Рейтинг
Избранное
