torchtitan 已经构建了 HSDP + diloco 支持,现在可能是开始进行去中心化学习研究的最佳地方。它还支持许多架构(llama3,llama4,deepseekv3...)以及所有可能的并行性(6d?)。Pytorch 团队在这里做了很多工作。
15.28K