Představujeme službu CheckFree Metoda odolná proti chybám pro decentralizované trénování, bez kontrolních bodů nebo redundantních výpočetních prostředků. Až 1,6× rychlejší než stávající metody, bez ztráty konvergence. Dnes to otevíráme zdrojovým kódem.
Odolnost proti chybám je při decentralizovaném školení zásadní, protože uzly jsou nespolehlivé a náchylné k selhání. Nedávné práce navrhly různé metody obnovy, i když stále vyžadují redundantní výpočty nebo kontrolní body, což přidává čas a výpočty.
Jak to funguje CheckFree místo toho obnoví neúspěšnou fázi s průměrnou váhou sousedních fází. To poskytuje efektivní způsob, jak se přiblížit ztraceným vahám s minimálním vlivem na konvergenci. Blog:
Tím se odemkne: – Až 1,6x rychlejší doba tréninku než u konvenčního checkpointingu – Až 1,2x rychlejší než při použití redundantních výpočetních prostředků – Není potřeba žádná další paměť ani výpočetní výkon
Dnes jej nabízíme jako klíčový stavební kámen pro decentralizované školení. Blog: Papír: Kód:
Jsme nadšeni, že jej dnes můžeme otevřít jako klíčový stavební kámen pro decentralizované školení. Blog: Papír: Kód:
29,83K