Presentiamo CheckFree Un metodo tollerante ai guasti per l'addestramento decentralizzato, senza checkpoint o calcoli ridondanti. Fino a 1,6 volte più veloce rispetto ai metodi esistenti, senza perdita di convergenza. Lo stiamo rendendo open source oggi.
La tolleranza ai guasti è fondamentale nell'addestramento decentralizzato, poiché i nodi sono inaffidabili e soggetti a guasti. Lavori recenti hanno proposto vari metodi di recupero, anche se richiedono ancora calcoli ridondanti o checkpointing, aumentando il tempo e il calcolo.
Come funziona CheckFree invece recupera la fase fallita con i pesi medi delle sue fasi vicine. Questo fornisce un modo efficiente per approssimare i pesi persi, con un effetto minimo sulla convergenza. Blog:
Questo sblocca: – Fino a 1,6 volte più veloce nel tempo di addestramento rispetto al checkpointing convenzionale – Fino a 1,2 volte più veloce rispetto all'uso di calcoli ridondanti – Nessuna memoria o calcolo aggiuntivo richiesto
Oggi lo rendiamo open source, come un elemento chiave per la formazione decentralizzata. Blog: Carta: Codice:
Siamo entusiasti di renderlo open source oggi, come un elemento chiave per la formazione decentralizzata. Blog: Carta: Codice:
29,83K