Présentation de CheckFree Une méthode tolérante aux pannes pour l'entraînement décentralisé, sans points de contrôle ni calcul redondant. Jusqu'à 1,6 fois plus rapide que les méthodes existantes, sans perte de convergence. Nous le rendons open source aujourd'hui.
La tolérance aux pannes est essentielle dans l'entraînement décentralisé, car les nœuds sont peu fiables et sujets à des pannes. Des travaux récents ont proposé diverses méthodes de récupération, bien qu'elles nécessitent encore des calculs redondants ou des points de contrôle, ce qui ajoute du temps et des ressources de calcul.
Comment ça fonctionne CheckFree récupère plutôt l'étape échouée avec les poids moyens de ses étapes voisines. Cela fournit un moyen efficace d'approximer les poids perdus, avec un effet minimal sur la convergence. Blog:
Cela déverrouille : – Jusqu'à 1,6 fois plus rapide que le temps d'entraînement conventionnel avec des points de contrôle – Jusqu'à 1,2 fois plus rapide que l'utilisation de calculs redondants – Aucune mémoire ou calcul supplémentaire requis
Nous le rendons open source aujourd'hui, en tant que pierre angulaire pour l'entraînement décentralisé. Blog : Document : Code :
Nous sommes ravis de le rendre open source aujourd'hui, en tant que pierre angulaire pour la formation décentralisée. Blog : Document : Code :
29,84K