eseguendo un carico di lavoro su torchtitan con la configurazione predefinita, 23% mfu, modifica un po' la configurazione, abilita la compilazione e flex, aumenta un po' la dimensione del batch --> 58% mfu. Vorrei che avessimo un predefinito più performante nell'ecosistema torch.
13,97K