🚨 NVIDIA просто зробила неможливе. Вони навчили мовну модель з 12 параметрами на 10 трильйонах токенів повністю з 4-бітною точністю. Він називається NVFP4 і може переосмислити те, як навчаються передові моделі штучного інтелекту. Ось чому це важливо: • NVFP4 забезпечує на 2–3× вищу пропускну здатність математичних обчислень і на 50% менше пам'яті порівняно з FP8 •Точність? Практично ідентичні. (MMLU-Pro: FP8 = 62,62%, NVFP4 = 62,58%) • Проблеми зі стабільністю? Вирішується за допомогою випадкових перетворень Гадамара, стохастичного округлення та 2D-масштабування • Повністю навчено на графічних процесорах NVIDIA Blackwell, перший 4-бітний працює стабільно на 10T токенах Це перша успішна демонстрація масштабної 4-бітної попередньої підготовки без втрати точності. Наступне покоління моделей Frontier буде швидшим, дешевшим і екологічнішим без компромісів.