Einführung von CheckFree Eine fehlertolerante Methode für dezentrales Training, ohne Checkpoints oder redundante Berechnungen. Bis zu 1,6x schneller als bestehende Methoden, ohne Konvergenzverlust. Wir machen es heute Open Source.
Fehlertoleranz ist entscheidend beim dezentralen Training, da Knoten unzuverlässig sind und anfällig für Ausfälle. Jüngste Arbeiten haben verschiedene Wiederherstellungsmethoden vorgeschlagen, obwohl sie weiterhin redundante Berechnungen oder Checkpoints erfordern, was Zeit und Rechenleistung hinzufügt.
Wie es funktioniert CheckFree stellt stattdessen die fehlgeschlagene Phase mit den durchschnittlichen Gewichten seiner benachbarten Phasen wieder her. Dies bietet eine effiziente Möglichkeit, die verlorenen Gewichte zu approximieren, mit minimalem Einfluss auf die Konvergenz. Blog:
Dies ermöglicht: – Bis zu 1,6x schnellere Trainingszeit als bei herkömmlichem Checkpointing – Bis zu 1,2x schneller als bei der Verwendung redundanter Berechnungen – Keine zusätzlichen Speicher- oder Rechenressourcen erforderlich
Wir machen es heute Open Source, als einen wichtigen Baustein für dezentrale Schulungen. Blog: Papier: Code:
Wir freuen uns, es heute als einen wichtigen Baustein für dezentrales Training Open Source zu machen. Blog: Papier: Code:
29,83K