As camadas de MoE podem ser muito lentas. Ao treinar nossos modelos de codificação @cursor_ai, eles consumiram de 27 a 53% do tempo de treinamento. Então, nós o reconstruímos completamente no nível do kernel e fizemos a transição para o MXFP8. O resultado: camada MoE 3,5x mais rápida e aceleração de treinamento de ponta a ponta 1,5x. Acreditamos que nossa pilha de treinamento MXFP8 MoE é mais rápida do que qualquer alternativa de código aberto disponível hoje. Leia mais aqui:
102,18K