DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Straturile MoE pot fi foarte lente. Când am antrenat modelele noastre de codare @cursor_ai, acestea au consumat 27-53% din timpul de antrenament. Așa că l-am reconstruit complet la nivel de kernel și am trecut la MXFP8. Rezultatul: strat MoE de 3,5 ori mai rapid și accelerare de 1,5 ori a antrenamentului end-to-end. Credem că stiva noastră de instruire MXFP8 MoE este mai rapidă decât orice alternativă open-source disponibilă astăzi. Citiți mai multe aici:

103,58K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante