世界上最快的 MXFP8 MoE 內核!
Stuart Sul
Stuart Sul8月20日 06:07
MoE 層可能非常慢。在訓練我們的編碼模型 @cursor_ai 時,它們消耗了 27%–53% 的訓練時間。 因此,我們在核心級別進行了完全重建,並轉向了 MXFP8。結果:MoE 層速度提高了 3.5 倍,端到端訓練速度提升了 1.5 倍。 我們相信我們的 MXFP8 MoE 訓練堆疊比今天任何可用的開源替代方案都要快。 在這裡閱讀更多:
8.36K