Najszybsze rdzenie MXFP8 MoE na świecie!
Stuart Sul
Stuart Sul20 sie, 06:07
Warstwy MoE mogą być naprawdę wolne. Podczas szkolenia naszych modeli kodowania @cursor_ai, zajmowały 27–53% czasu treningu. Dlatego całkowicie przebudowaliśmy to na poziomie jądra i przeszliśmy na MXFP8. Rezultat: 3,5x szybsza warstwa MoE i 1,5x przyspieszenie całkowitego czasu treningu. Wierzymy, że nasza stos MoE do treningu MXFP8 jest szybsza niż jakakolwiek dostępna dzisiaj alternatywa open-source. Przeczytaj więcej tutaj:
8,36K