介紹 CheckFree 一種用於分散式訓練的容錯方法,沒有檢查點或冗餘計算。 比現有方法快 1.6 倍,且無收斂損失。 我們今天開源了它。
容錯性在去中心化訓練中至關重要,因為節點不可靠且容易出現故障。 最近的工作提出了各種恢復方法,儘管它們仍然需要冗餘計算或檢查點,從而增加了時間和計算。
運作方式 相反,CheckFree 會用其相鄰階段的平均權重來恢復失敗的階段。 這提供了一種有效的方法來近似損失的權重,對收斂的影響最小。 博客:
這將解鎖: – 訓練時間比傳統檢查點快 1.6 倍 – 比使用冗餘計算快 1.2 倍 – 無需額外的記憶體或計算
我們今天將其開源,作為分散式訓練的關鍵構建塊。 博客: 紙: 法典:
我們很高興今天能夠將其開源,作為去中心化訓練的關鍵構建塊。 博客: 紙: 法典:
29.84K