ejecutando una carga de trabajo en torchtitan con la configuración predeterminada, 23% mfu, cambia un poco la configuración, habilita la compilación y flex, aumenta un poco el tamaño del lote --> 58% mfu. Desearía que tuviéramos un rendimiento más eficiente en el ecosistema de torch.
13,98K