MoE 层可能非常慢。在训练我们的编码模型 @cursor_ai 时,它们消耗了 27%–53% 的训练时间。 因此,我们在内核级别进行了完全重建,并转向了 MXFP8。结果:MoE 层速度提高了 3.5 倍,端到端训练速度提升了 1.5 倍。 我们相信我们的 MXFP8 MoE 训练堆栈比今天任何可用的开源替代方案都要快。 在这里阅读更多:
102.18K