介绍 CheckFree 一种容错的去中心化训练方法,无需检查点或冗余计算。 比现有方法快多达 1.6 倍,且没有收敛损失。 我们今天将其开源。
容错在去中心化训练中至关重要,因为节点不可靠且容易发生故障。 最近的研究提出了各种恢复方法,尽管它们仍然需要冗余计算或检查点,增加了时间和计算成本。
它是如何工作的 CheckFree 通过相邻阶段的平均权重来恢复失败的阶段。 这提供了一种有效的方法来近似丢失的权重,对收敛的影响最小。 博客:
这解锁了: – 比传统检查点快高达1.6倍的训练时间 – 比使用冗余计算快高达1.2倍 – 不需要额外的内存或计算
我们今天将其开源,作为去中心化训练的关键构建块。 博客: 论文: 代码:
我们很高兴今天开源它,作为去中心化训练的关键构建块。 博客: 论文: 代码:
29.84K