I kernel MXFP8 MoE più veloci al mondo!
Stuart Sul
Stuart Sul20 ago, 06:07
I layer MoE possono essere davvero lenti. Durante l'addestramento dei nostri modelli di codifica @cursor_ai, hanno consumato il 27–53% del tempo di addestramento. Quindi lo abbiamo completamente ricostruito a livello di kernel e siamo passati a MXFP8. Il risultato: layer MoE 3.5 volte più veloci e un'accelerazione dell'addestramento end-to-end di 1.5 volte. Crediamo che il nostro stack di addestramento MoE MXFP8 sia più veloce di qualsiasi alternativa open-source disponibile oggi. Leggi di più qui:
8,37K