CheckFreeのご紹介 チェックポイントや冗長なコンピューティングを使用しない分散型トレーニングのためのフォールトトレラントな方法。 既存の方法よりも最大1.6倍高速で、収束損失はありません。 今日、私たちはそれをオープンソース化しています。
分散型トレーニングでは、ノードの信頼性が低く、故障しやすいため、フォールトトレランスが重要です。 最近の研究では、さまざまな回復方法が提案されていますが、それでも冗長な計算やチェックポイントが必要であり、時間と計算が追加されています。
仕組み 代わりに、CheckFreeは、隣接するステージの平均ウェイトで失敗したステージを回復します。 これにより、収束への影響を最小限に抑えながら、失われた重みを効率的に近似できます。 ブログ:
これにより、以下のロックが解除されます。 – 従来のチェックポイント設定よりも最大1.6倍速いトレーニング時間 – 冗長コンピューティングを使用するよりも最大 1.2 倍高速 – 追加のメモリやコンピューティングは不要
私たちは今日、分散型トレーニングの主要な構成要素として、それをオープンソース化しています。 ブログ: 紙: コード:
本日、分散型トレーニングの主要な構成要素としてオープンソース化できることを嬉しく思います。 ブログ: 紙: コード:
29.83K