1/2 我们将之前在数据并行模式(每个节点都有完整的模型副本)中的工作扩展到了模型并行模式。这是除了原始群体论文之外,首次处理模型本身在设备上分片的场景的工作。
1.98K