exécutant une charge de travail sur torchtitan avec la configuration par défaut, 23 % de mfu, modifiez un peu la configuration, activez la compilation et le flex, augmentez un peu la taille du lot --> 58 % de mfu. Je souhaite que nous ayons des performances par défaut plus élevées dans l'écosystème torch.
13,97K