NVIDIA har lansert Nemotron 3 Super, en 120B (12B aktiv) åpen vekt-resonnementsmodell som scorer 36 på Artificial Analysis Intelligence Index med en hybrid Mamba-Transformer MoE-arkitektur Vi fikk tilgang til denne modellen før lansering og evaluerte den utover intelligens, åpenhet og inferenseffektivitet. Viktige punkter ➤ Kombinerer høy åpenhet med sterk intelligens: Nemotron 3 Super presterer sterkt for sin størrelse og er betydelig mer intelligent enn noen annen modell med sammenlignbar åpenhet ➤ Nemotron 3 Super fikk 36 poeng på Artificial Analysis Intelligence Index, +17 poeng foran forrige Super-utgivelse og +12 poeng fra Nemotron 3 Nano. Sammenlignet med modeller i en lignende størrelseskategori, plasserer dette den foran gpt-oss-120b (33), men bak den nylig lanserte Qwen3.5 122B A10B (42). ➤ Fokusert på effektiv intelligens: vi fant ut at Nemotron 3 Super hadde høyere intelligens enn gpt-oss-120b, samtidig som den muliggjorde ~10 % høyere gjennomstrømning per GPU i en enkel, men realistisk belastningstest ➤ Støttes i dag for rask serverløs inferens: leverandører inkludert @DeepInfra og @LightningAI tilbyr denne modellen ved lansering med hastigheter på opptil 484 tokens per sekund Modelldetaljer 📝 Nemotron 3 Super har totalt 120,6 milliarder og 12,7 milliarder aktive parametere, sammen med et kontekstvindu på 1 million tokens og støtte for hybrid resonnement. Den publiseres med åpne vekter og en permissiv lisens, sammen med åpen opplæringsdata og metodikk 📐 Modellen har flere designfunksjoner som muliggjør effektiv slutning, inkludert bruk av hybride Mamba-Transformer- og LatentMoE-arkitekturer, multi-token prediksjon og NVFP4 kvantiserte vekter 🎯 NVIDIA forhåndstrente Nemotron 3 Super i (for det meste) NVFP4-presisjon, men gikk over til BF16 for ettertrening. Våre evalueringsresultater bruker BF16-vektene 🧠 Vi testet Nemotron 3 Super i sin høyest innsats resonneringsmodus ("regular"), den mest kapable av modellens tre inferensmoduser (reasoning-off, low-effort og regular)
NVIDIA publiserte betydelige data før og etter trening sammen med nye omfattende treningsoppskrifter for denne modellen. Disse avsløringene når 83 på Artificial Analysis Openness Index, kun bak svært åpne modeller fra Ai2 og MBZUAI, og plasserer Nemotron 3 Super i den mest attraktive kvadranten for åpenhet og intelligens blant jevnaldrende. Nemotron 3 Super er uten tvil den mest intelligente modellen som noensinne er utgitt, med dette nivået av åpenhet.
Nemotron 3 Super brukte et relativt høyt antall tokens i våre evalueringer. Den brukte 110 millioner output-tokens for å kjøre evalueringene av Artificial Analysis Intelligence Index – dette er omtrent 40 % mer enn gpt-oss-120b med høy resonneringsinnsats, men en reduksjon på ~20 % sammenlignet med Nemotron 3 Nano. Det er betydelig færre tokens enn Anthropics Claude Opus 4.6 (maks), som brukte 160 millioner tokens, og litt færre enn OpenAIs GPT-5.4 (xhigh), som brukte 120 millioner tokens.
Med totalt 120 milliarder og 12 milliarder aktive parametere er Nemotron 3 Super fortsatt relativt liten sammenlignet med andre nylige åpne vektmodeller fra ledende globale laboratorier — GLM-5 (744 milliarder totalt, 40 milliarder aktive), Qwen3.5 397B A17B (397 milliarder totalt, 17 milliarder aktive) og Kimi K2.5 (1 T totalt, 32 milliarder aktive) er hver 3 til 8 ganger større.
NVIDIA fokuserer på effektiv intelligens for Nemotron-familien, og vi testet inferensytelse mot jevnaldrende modeller for å se effekten av arkitekturvalgene. Vi kjørte selvhostede gjennomstrømningstester på tvers av ulike peer-modeller ved hjelp av en enkel metodikk med arbeidsbelastninger som representerer vanlige bruksområder som agentiske arbeidsflyter med moderat historikk, RAG-applikasjoner eller dokumentbehandling. I denne testen viser Nemotron 3 Super (NVFP4) 11 % høyere gjennomstrømning per NVIDIA B200 GPU enn gpt-oss-120b (MXFP4), noe som plasserer Nemotron 3 Super 'til høyre' i forhold til gpt-oss-120b. Qwen3.5 122B A10B oppnår +6 poeng på Intelligence Index sammenlignet med Nemotron 3 Super, men med 40 % lavere gjennomstrømning per GPU. Våre Intelligence Index-scorer for Nemotron 3 Super ble evaluert på BF16-vektene. Vi har ennå ikke vurdert om det er noen intelligenspåvirkning av NVFP4-kvantisering, men NVIDIAs interne tester fant at NVFP4-modellen oppnådde 99,8 % mediannøyaktighet sammenlignet med BF16-baseline. For mer informasjon om vårt testoppsett og modellkonfigurasjoner, se vår artikkel om Nemotron 3 Super:
Nemotron 3 Super vil være tilgjengelig fra lanseringen på serverløse API-er fra leverandører som Lightning AI og DeepInfra. Vi testet disse endepunktene og ser ytelse på opptil 484 tokens per sekund på våre standard 10k token-inndata-arbeidsbelastninger. Ved lansering befinner Nemotron 3 Super seg i den mest attraktive kvadranten for intelligens og utgangshastighet blant sammenlignbare konkurrenter.
7,18K