NVIDIA a lancé Nemotron 3 Super, un modèle de raisonnement à poids ouverts de 120B (12B actifs) qui obtient un score de 36 sur l'Indice d'Analyse de l'Intelligence Artificielle avec une architecture hybride Mamba-Transformer MoE. Nous avons eu accès à ce modèle avant son lancement et l'avons évalué en termes d'intelligence, d'ouverture et d'efficacité d'inférence. Points clés ➤ Combine une grande ouverture avec une forte intelligence : Nemotron 3 Super performe fortement pour sa taille et est substantiellement plus intelligent que tout autre modèle avec une ouverture comparable. ➤ Nemotron 3 Super a obtenu un score de 36 sur l'Indice d'Analyse de l'Intelligence Artificielle, +17 points devant la précédente version Super et +12 points par rapport à Nemotron 3 Nano. Comparé aux modèles dans une catégorie de taille similaire, cela le place devant gpt-oss-120b (33), mais derrière le récemment lancé Qwen3.5 122B A10B (42). ➤ Axé sur une intelligence efficace : nous avons constaté que Nemotron 3 Super avait une intelligence supérieure à gpt-oss-120b tout en permettant un débit d'environ 10 % plus élevé par GPU lors d'un test de charge simple mais réaliste. ➤ Supporté aujourd'hui pour une inférence sans serveur rapide : des fournisseurs tels que @DeepInfra et @LightningAI servent ce modèle au lancement avec des vitesses allant jusqu'à 484 tokens par seconde. Détails du modèle 📝 Nemotron 3 Super a 120,6B de paramètres au total et 12,7B de paramètres actifs, avec une fenêtre de contexte de 1 million de tokens et un support de raisonnement hybride. Il est publié avec des poids ouverts et une licence permissive, ainsi que des données d'entraînement ouvertes et une divulgation de méthodologie. 📐 Le modèle a plusieurs caractéristiques de conception permettant une inférence efficace, y compris l'utilisation d'architectures hybrides Mamba-Transformer et LatentMoE, la prédiction multi-token et des poids quantifiés NVFP4. 🎯 NVIDIA a pré-entraîné Nemotron 3 Super en précision (principalement) NVFP4, mais est passé à BF16 pour le post-entraînement. Nos scores d'évaluation utilisent les poids BF16. 🧠 Nous avons évalué Nemotron 3 Super dans son mode de raisonnement le plus exigeant ("régulier"), le plus capable des trois modes d'inférence du modèle (raisonnement désactivé, faible effort et régulier).
NVIDIA a publié des données significatives avant et après l'entraînement, ainsi que de nouvelles recettes d'entraînement complètes pour ce modèle. Ces divulgations atteignent un score de 83 sur l'Indice d'Ouverture de l'Analyse Artificielle, derrière seulement des modèles très ouverts d'Ai2 et de MBZUAI, et placent Nemotron 3 Super dans le quadrant le plus attrayant pour l'Ouverture et l'Intelligence parmi ses pairs. Nemotron 3 Super est de loin le modèle le plus intelligent jamais publié avec ce niveau d'ouverture.
Nemotron 3 Super a utilisé un nombre relativement élevé de tokens lors de nos évaluations. Il a utilisé 110M de tokens de sortie pour exécuter les évaluations de l'Indice d'Analyse Intelligente Artificielle - c'est environ 40 % de plus que gpt-oss-120b avec un effort de raisonnement élevé, mais une réduction d'environ 20 % par rapport à Nemotron 3 Nano. C'est significativement moins de tokens que Claude Opus 4.6 d'Anthropic (max), qui a utilisé 160M de tokens, et légèrement moins que GPT-5.4 d'OpenAI (xhigh), qui a utilisé 120M de tokens.
Avec 120B au total et 12B de paramètres actifs, Nemotron 3 Super est encore relativement petit par rapport à d'autres modèles récents à poids ouverts publiés par des laboratoires mondiaux de premier plan — GLM-5 (744B au total, 40B actifs), Qwen3.5 397B A17B (397B au total, 17B actifs) et Kimi K2.5 (1T au total, 32B actifs) sont chacun 3 à 8 fois plus grands.
NVIDIA se concentre sur l'intelligence efficace pour la famille Nemotron, et nous avons testé les performances d'inférence par rapport aux modèles concurrents pour voir l'impact des choix d'architecture. Nous avons réalisé des tests de débit auto-hébergés sur une gamme de modèles concurrents en utilisant une méthodologie simple avec des charges de travail représentatives de cas d'utilisation courants tels que des flux de travail agentiques avec un historique modéré, des applications RAG ou le traitement de documents. Dans ce test, Nemotron 3 Super (NVFP4) montre un débit supérieur de 11 % par rapport au GPU NVIDIA B200 par rapport à gpt-oss-120b (MXFP4), plaçant Nemotron 3 Super « en haut à droite » par rapport à gpt-oss-120b. Qwen3.5 122B A10B obtient +6 points sur l'Index d'Intelligence par rapport à Nemotron 3 Super, mais avec un débit par GPU inférieur de 40 %. Nos scores de l'Index d'Intelligence pour Nemotron 3 Super ont été évalués sur les poids BF16. Nous n'avons pas encore évalué s'il y a un impact sur l'intelligence de la quantification NVFP4, mais les tests internes de NVIDIA ont révélé que le modèle NVFP4 a atteint une précision médiane de 99,8 % par rapport à la référence BF16. Pour plus de détails sur notre configuration de test et les configurations de modèle, consultez notre article sur Nemotron 3 Super :
Nemotron 3 Super sera disponible dès sa sortie sur des API sans serveur de fournisseurs tels que Lightning AI et DeepInfra. Nous avons testé ces points de terminaison et constatons des performances allant jusqu'à 484 tokens par seconde sur nos charges de travail standard de 10k tokens. Au lancement, Nemotron 3 Super se situe dans le quadrant le plus attractif pour l'intelligence et la vitesse de sortie parmi des pairs comparables.
7,05K