Przedstawiamy CheckFree Metoda odporna na błędy do zdecentralizowanego treningu, bez punktów kontrolnych i zbędnych obliczeń. Do 1,6x szybsza niż istniejące metody, bez utraty zbieżności. Udostępniamy ją jako open source już dziś.
Tolerancja na błędy jest kluczowa w zdecentralizowanym szkoleniu, ponieważ węzły są zawodowe i podatne na awarie. Ostatnie prace zaproponowały różne metody odzyskiwania, chociaż nadal wymagają one nadmiarowego obliczania lub punktów kontrolnych, co wydłuża czas i obciążenie obliczeniowe.
Jak to działa CheckFree zamiast tego odzyskuje nieudany etap za pomocą średnich wag sąsiednich etapów. Zapewnia to efektywny sposób na przybliżenie utraconych wag, z minimalnym wpływem na zbieżność. Blog:
To odblokowuje: – Do 1,6x szybszy czas treningu niż w przypadku konwencjonalnego checkpointingu – Do 1,2x szybciej niż przy użyciu redundantnych obliczeń – Nie wymaga dodatkowej pamięci ani obliczeń
Dziś udostępniamy to jako otwarte źródło, jako kluczowy element do zdecentralizowanego szkolenia. Blog: Artykuł: Kod:
Cieszymy się, że możemy to dzisiaj udostępnić jako kluczowy element do zdecentralizowanego szkolenia. Blog: Artykuł: Kod:
29,84K