executando alguma carga de trabalho no torchtitan com a configuração padrão, 23% de mfu, mude um pouco a configuração, ative a compilação e flex, aumente um pouco o tamanho do lote --> 58% de mfu. Gostaria que tivéssemos um desempenho mais eficiente no ecossistema do torch.
13,98K