¡Los kernels MXFP8 MoE más rápidos del mundo!
Stuart Sul
Stuart Sul20 ago, 06:07
Las capas de MoE pueden ser muy lentas. Cuando entrenamos nuestros modelos de codificación @cursor_ai, consumieron entre el 27 y el 53% del tiempo de entrenamiento. Así que lo reconstruimos completamente a nivel de kernel y pasamos a MXFP8. El resultado: una capa de MoE 3,5 veces más rápida y una aceleración del entrenamiento de extremo a extremo 1,5 veces. Creemos que nuestra pila de entrenamiento MXFP8 MoE es más rápida que cualquier alternativa de código abierto disponible en la actualidad. Lea más aquí:
8.35K