Шари MoE можуть бути дуже повільними. Коли наші моделі кодування навчалися @cursor_ai, вони з'їдали 27–53% навчального часу. Тому ми повністю перезбирали його на рівні ядра і перейшли на MXFP8. Результат: у 3,5 рази швидший рівень MoE та в 1,5 рази прискорення наскрізного тренування. Ми вважаємо, що наш тренувальний стек MXFP8 MoE швидший, ніж будь-яка альтернатива з відкритим вихідним кодом, доступна сьогодні. Читайте також:
102,19K