DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

《Analyse des benchmarks EXO de Qwen3-Coder-Next-8bit sur M3 Ultra》 I. Données clés : Configuration matérielle de l'inférence distribuée M3 Ultra (512 Go de RAM) • Node unique : Apple M3 Ultra 512 Go de RAM (32 cœurs CPU, 80 cœurs GPU) • Node double : 2 × M3 Ultra (1024 Go de RAM agrégés) • Modèle : Qwen3-Coder-Next-8bit (8B paramètres, version quantifiée) Performances de référence (tokens/s)

Deux, Informations clés : 1. Traitement des invites s'étend linéairement avec le nombre de nœuds • 0,5K-8K contexte : un seul nœud a atteint son maximum (60 t/s), deux nœuds ont même diminué (-3%) • Raison : le coût de communication distribué > le gain d'accélération de calcul • Conclusion : un petit contexte n'a pas besoin de distribution • 16K-64K contexte : deux nœuds commencent à bénéficier (+2% à +6%) • Raison : le cache KV nécessite plus de mémoire, goulot d'étranglement d'un seul nœud • Conclusion : le raisonnement distribué avec un grand contexte a de la valeur 2. Tendances de performance de génération • Petit modèle (8B) + petit contexte (<32K) : génération relativement lente • Grand contexte (≥32K) : la performance commence à s'améliorer, aperçu clé • Raison : le modèle 8B a une pression de calcul faible, le goulot d'étranglement est dans la bande passante mémoire et le cache KV 3. Importance de l'API /bench • Point de terminaison OpenAI standard : cache activé par défaut, entraînant des résultats de test erronés • API /bench : pas de streaming, retourne les statistiques de mesure du serveur (précises) • Découverte clé : les tests de raisonnement distribué doivent utiliser /bench, sinon les données sont invalides

Trois, Comparé à Qwen3.5-35B

Quatre, Conclusion technique Plage de valeur de l'inférence distribuée • Petit contexte (<8K) : optimal sur un seul nœud, la double nœud entraîne une baisse (coût de communication) • Grand contexte (≥32K) : le double nœud commence à bénéficier, à 64K amélioration de +6% • Contexte 128K+ : nécessite plusieurs nœuds (problème rencontré lors des tests avec des messages gossipsub de 1115KB trop volumineux) Qwen3-Coder-Next-8bit vs Qwen3.5-35B :

Cinq, Les goulets d'étranglement d'EXO • Échec du test de contexte 128K : le message gossipsub est trop volumineux (1115 Ko), un redémarrage du nœud est nécessaire • Problème : la couche réseau limite l'évolutivité de l'inférence distribuée • Solution : il est nécessaire d'optimiser le fractionnement des messages ou d'utiliser un autre protocole de communication

六、 Comparaison des modèles économiques Option A : M3 Ultra 512 Go (nœud unique) • Coût : 2000-3000 $ • Performance : 60 t/s (<8K) → 48 t/s (64K) • Applicable : grand contexte (≥32K), un seul nœud suffit Option B : M3 Ultra × 2 (deux nœuds) • Coût : 4000-6000 $ • Performance : 59-51 t/s (+6 % par rapport au nœud unique, uniquement pour le contexte 64K) • Applicable : très grand contexte (≥128K), mémoire insuffisante sur un seul nœud Option C : RTX 3090 (carte unique) • Coût : 800-1000 $ (d'occasion) • Performance : 112 t/s (fixe, Qwen3.5-35B) • Applicable : petit contexte (<64K), économiquement viable

Sept, 📌 Conclusions clés 1. Qwen3-Coder-Next-8bit est adapté pour un contexte large (≥32K) de raisonnement distribué. Avantages : extensible à un contexte infini (agrégation de mémoire multi-nœuds). Inconvénients : les performances en petit contexte ne sont pas à la hauteur d'un GPU sur une seule carte, période de retour sur investissement longue. 2. Qwen3.5-35B (RTX 3090) est adapté pour un petit contexte (<64K) de raisonnement économique. Avantages : 112 t/s de haute performance, retour sur investissement en 6 mois. Inconvénients : limite sur une seule carte (24 Go de VRAM), impossible d'étendre à 128K+. 3. Le raisonnement distribué d'EXO a encore des goulots d'étranglement. Problème : le message gossipsub est trop volumineux (1115 Ko), nécessitant un redémarrage des nœuds. Solution : optimiser la couche réseau ou utiliser d'autres protocoles de communication.

Huit, Comparaison des priorités d'investissement Le Mac Studio M5 (équipé de la puce M5 Ultra) devrait être lancé entre mars et juin 2026. En termes de performance, pour les tâches d'inférence LLM, par rapport au M3 Ultra, le traitement des invites (TTFT) du M5 Ultra peut atteindre une accélération de 2 à 4 fois, avec une augmentation de la vitesse de génération (tokens/s) d'environ 20 à 30 % (la bande passante mémoire passant de 800 Go/s à un niveau supérieur, combinée à l'accélérateur neuronal de chaque cœur GPU). Pour les versions quantifiées de modèles similaires à Qwen, le M5 Ultra pourrait prendre en charge un contexte plus large (64K+ tokens), réalisant un débit plus élevé dans les tests de référence (comme les grands modèles MoE atteignant 150+ tok/s). Étant donné que le coût matériel est similaire (environ 4000 $ de base) mais que les performances s'améliorent, le retour sur investissement (ROI) devrait se réduire à 8-12 mois, ce qui le rend adapté aux scénarios de développement AI à forte intensité, avec un indice de recommandation global plus élevé.

3,31K

Meilleurs

Classement

Favoris