Самые быстрые в мире ядра MXFP8 MoE!
Stuart Sul
Stuart Sul20 авг., 06:07
Слои MoE могут быть действительно медленными. При обучении наших кодирующих моделей @cursor_ai они занимали 27–53% времени обучения. Поэтому мы полностью перестроили его на уровне ядра и перешли на MXFP8. Результат: слой MoE стал в 3.5 раза быстрее, а скорость обучения от начала до конца увеличилась в 1.5 раза. Мы считаем, что наш стек обучения MXFP8 MoE быстрее любого доступного сегодня открытого аналога. Читать далее здесь:
8,36K