Introductie van CheckFree Een fouttolerante methode voor gedecentraliseerde training, zonder checkpoints of redundante berekeningen. Tot 1,6x sneller dan bestaande methoden, zonder convergentieverlies. We maken het vandaag open source.
Fouttolerantie is cruciaal in gedecentraliseerde training, aangezien knooppunten onbetrouwbaar zijn en gevoelig voor fouten. Recente werken hebben verschillende herstelmethoden voorgesteld, hoewel ze nog steeds redundante berekeningen of checkpointing vereisen, wat tijd en rekenkracht toevoegt.
Hoe het werkt CheckFree herstelt in plaats daarvan de mislukte fase met de gemiddelde gewichten van zijn naburige fasen. Dit biedt een efficiënte manier om de verloren gewichten te benaderen, met minimale invloed op de convergentie. Blog:
Dit ontgrendelt: – Tot 1,6x snellere trainingstijd dan conventioneel checkpointen – Tot 1,2x sneller dan het gebruik van redundante rekencapaciteit – Geen extra geheugen of rekencapaciteit vereist
We maken het vandaag open source, als een belangrijke bouwsteen voor gedecentraliseerde training. Blog: Paper: Code:
We zijn enthousiast om het vandaag open source te maken, als een belangrijke bouwsteen voor gedecentraliseerde training. Blog: Paper: Code:
29,84K