Straturile MoE pot fi foarte lente. Când am antrenat modelele noastre de codare @cursor_ai, acestea au consumat 27-53% din timpul de antrenament. Așa că l-am reconstruit complet la nivel de kernel și am trecut la MXFP8. Rezultatul: strat MoE de 3,5 ori mai rapid și accelerare de 1,5 ori a antrenamentului end-to-end. Credem că stiva noastră de instruire MXFP8 MoE este mai rapidă decât orice alternativă open-source disponibilă astăzi. Citiți mai multe aici:
103,58K