🎉 Congratulazioni a @nvidia per il rilascio di Nemotron 3 Super — supporto day-0 in vLLM v0.17.1! Verificato su GPU NVIDIA. 120B ibrido MoE, solo 12B attivi durante l'inferenza. Grandi miglioramenti rispetto al precedente Nemotron Super: - 5 volte maggiore throughput - 2 volte maggiore accuratezza sull'Artificial Analysis Intelligence Index - Predizione Multi-Token (MTP) per una generazione di testi più rapida - Budget di pensiero configurabile — bilancia accuratezza e costo per token per compito - Finestra di contesto di 1M token Supporta BF16, FP8 e NVFP4. Completamente aperto: pesi, dataset, ricette. Blog: 🤝 Grazie al team Nemotron di @NVIDIAAIDev e ai contributori della comunità vLLM!