De snelste MXFP8 MoE-kernen ter wereld!
Stuart Sul
Stuart Sul20 aug, 06:07
MoE-lagen kunnen echt traag zijn. Bij het trainen van onze coderingsmodellen @cursor_ai, namen ze 27–53% van de trainingstijd in beslag. Dus hebben we het volledig opnieuw opgebouwd op kernel-niveau en zijn we overgestapt op MXFP8. Het resultaat: 3,5x snellere MoE-laag en 1,5x versnelling van de end-to-end training. We geloven dat onze MXFP8 MoE-trainingsstack sneller is dan enige open-source alternatieve die vandaag beschikbaar is. Lees hier meer:
8,36K