Cele mai rapide nuclee MXFP8 MoE din lume!
Stuart Sul
Stuart Sul20 aug., 06:07
Straturile MoE pot fi foarte lente. Când am antrenat modelele noastre de codare @cursor_ai, acestea au consumat 27-53% din timpul de antrenament. Așa că l-am reconstruit complet la nivel de kernel și am trecut la MXFP8. Rezultatul: strat MoE de 3,5 ori mai rapid și accelerare de 1,5 ori a antrenamentului end-to-end. Credem că stiva noastră de instruire MXFP8 MoE este mai rapidă decât orice alternativă open-source disponibilă astăzi. Citiți mai multe aici:
8,37K