在torchtitan上运行一些工作负载,使用默认配置,23%的mfu,稍微更改一下配置,启用编译和flex,稍微增加批量大小 --> 58%的mfu。 我希望我们在torch生态系统中有更高效的默认设置。
13.95K