1/2 我們將之前在數據並行機制(每個節點都有模型的完整副本)中的工作擴展到了模型並行機制。這是除了原始 swarm 論文之外的第一篇工作,涉及模型本身在設備上分片的場景。
1.98K