A NVIDIA lançou o Nemotron 3 Super, um modelo de raciocínio de pesos abertos de 120B (12B ativos) que pontua 36 no Índice de Inteligência de Análise Artificial com uma arquitetura híbrida Mamba-Transformer MoE Tivemos acesso a este modelo antes do lançamento e o avaliamos em termos de inteligência, abertura e eficiência de inferência. Principais conclusões ➤ Combina alta abertura com forte inteligência: o Nemotron 3 Super apresenta um desempenho forte para seu tamanho e é substancialmente mais inteligente do que qualquer outro modelo com abertura comparável ➤ O Nemotron 3 Super pontuou 36 no Índice de Inteligência de Análise Artificial, +17 pontos à frente do lançamento anterior do Super e +12 pontos em relação ao Nemotron 3 Nano. Comparado a modelos em uma categoria de tamanho semelhante, isso o coloca à frente do gpt-oss-120b (33), mas atrás do recentemente lançado Qwen3.5 122B A10B (42). ➤ Focado em inteligência eficiente: descobrimos que o Nemotron 3 Super tem uma inteligência superior ao gpt-oss-120b, enquanto permite um throughput ~10% maior por GPU em um teste de carga simples, mas realista ➤ Suportado hoje para inferência rápida sem servidor: provedores como @DeepInfra e @LightningAI estão servindo este modelo no lançamento com velocidades de até 484 tokens por segundo Detalhes do modelo 📝 O Nemotron 3 Super tem 120.6B de parâmetros totais e 12.7B de parâmetros ativos, juntamente com uma janela de contexto de 1 milhão de tokens e suporte a raciocínio híbrido. É publicado com pesos abertos e uma licença permissiva, juntamente com dados de treinamento abertos e divulgação de metodologia 📐 O modelo possui várias características de design que permitem uma inferência eficiente, incluindo o uso de arquiteturas híbridas Mamba-Transformer e LatentMoE, previsão de múltiplos tokens e pesos quantizados NVFP4 🎯 A NVIDIA pré-treinou o Nemotron 3 Super em precisão (principalmente) NVFP4, mas mudou para BF16 para o pós-treinamento. Nossas pontuações de avaliação usam os pesos BF16 🧠 Avaliamos o Nemotron 3 Super em seu modo de raciocínio de maior esforço ("regular"), o mais capaz dos três modos de inferência do modelo (raciocínio-desligado, baixo-esforço e regular)
A NVIDIA lançou dados significativos de pré e pós-treinamento juntamente com novas receitas de treinamento abrangentes para este modelo. Estas divulgações alcançam um 83 no Índice de Abertura de Análise Artificial, atrás apenas de modelos altamente abertos da Ai2 e MBZUAI, e colocam o Nemotron 3 Super no quadrante mais atraente para Abertura e Inteligência entre os pares. O Nemotron 3 Super é, de longe, o modelo mais inteligente já lançado com este nível de abertura.
O Nemotron 3 Super utilizou um número relativamente alto de tokens nas nossas avaliações. Utilizou 110M de tokens de saída para executar as avaliações do Índice de Inteligência de Análise Artificial - isto é cerca de 40% mais do que o gpt-oss-120b com um alto esforço de raciocínio, mas uma redução de ~20% em comparação com o Nemotron 3 Nano. Isso é significativamente menos tokens do que o Claude Opus 4.6 da Anthropic (máx.), que utilizou 160M de tokens, e ligeiramente menos do que o GPT-5.4 (xhigh) da OpenAI, que utilizou 120M de tokens.
Com 120B no total e 12B de parâmetros ativos, o Nemotron 3 Super ainda é relativamente pequeno em comparação com outros lançamentos recentes de modelos de pesos abertos de laboratórios globais de topo — GLM-5 (744B no total, 40B ativos), Qwen3.5 397B A17B (397B no total, 17B ativos) e Kimi K2.5 (1T no total, 32B ativos) são cada um 3x a 8x maiores.
A NVIDIA está focada em inteligência eficiente para a família Nemotron, e testamos o desempenho de inferência em comparação com modelos semelhantes para ver o impacto das escolhas de arquitetura. Realizamos testes de throughput auto-hospedados em uma variedade de modelos semelhantes usando uma metodologia simples com cargas de trabalho representativas de casos de uso comuns, como fluxos de trabalho agentes com histórico moderado, aplicações RAG ou processamento de documentos. Neste teste, o Nemotron 3 Super (NVFP4) mostra 11% mais throughput por GPU NVIDIA B200 do que o gpt-oss-120b (MXFP4), colocando o Nemotron 3 Super ‘para cima e à direita’ em relação ao gpt-oss-120b. O Qwen3.5 122B A10B alcança +6 pontos no Índice de Inteligência em comparação com o Nemotron 3 Super, mas com 40% menos throughput por GPU. Nossos pontos do Índice de Inteligência para o Nemotron 3 Super foram avaliados com os pesos BF16. Ainda não avaliamos se há algum impacto de inteligência da quantização NVFP4, mas os testes internos da NVIDIA descobriram que o modelo NVFP4 alcançou 99,8% de precisão mediana em relação à linha de base BF16. Para mais detalhes sobre nossa configuração de testes e configurações de modelo, veja nosso artigo sobre o Nemotron 3 Super:
O Nemotron 3 Super estará disponível desde o seu lançamento em APIs sem servidor de fornecedores, incluindo Lightning AI e DeepInfra. Testámos estes endpoints e verificámos um desempenho de até 484 tokens por segundo nas nossas cargas de trabalho padrão de 10k tokens. No lançamento, o Nemotron 3 Super encontra-se no quadrante mais atraente em termos de inteligência e velocidade de saída entre pares comparáveis.
7,18K