Las capas de MoE pueden ser realmente lentas. Al entrenar nuestros modelos de codificación @cursor_ai, consumieron entre el 27% y el 53% del tiempo de entrenamiento. Así que lo reconstruimos completamente a nivel de núcleo y hicimos la transición a MXFP8. El resultado: una capa de MoE 3.5 veces más rápida y un aumento de velocidad de entrenamiento de extremo a extremo de 1.5 veces. Creemos que nuestra pila de entrenamiento de MoE MXFP8 es más rápida que cualquier alternativa de código abierto disponible hoy en día. Lee más aquí:
102,19K