torchtitan 已經建立了 HSDP + diloco 支持,現在可能是開始進行去中心化學習研究的最佳場所。它還支持許多架構(llama3、llama4、deepseekv3...)以及所有可能的並行性(6d?)。Pytorch 團隊在這裡做了很多工作。
15.28K