Apresentando o CheckFree Um método tolerante a falhas para treinamento descentralizado, sem pontos de verificação ou computação redundante. Até 1,6x mais rápido do que os métodos existentes, sem perda de convergência. Estamos abrindo o código hoje.
A tolerância a falhas é fundamental no treinamento descentralizado, pois os nós não são confiáveis e propensos a falhas. Trabalhos recentes propuseram vários métodos de recuperação, embora ainda exijam computação redundante ou ponto de verificação, adicionando tempo e computação.
Como funciona Em vez disso, o CheckFree recupera o estágio com falha com os pesos médios de seus estágios vizinhos. Isso fornece uma maneira eficiente de aproximar os pesos perdidos, com efeito mínimo na convergência. Blogue:
Isso desbloqueia: – Tempo de treinamento até 1,6x mais rápido do que o checkpoint convencional – Até 1,2x mais rápido do que usar computação redundante – Não é necessária memória ou computação adicional
Estamos abrindo o código hoje, como um alicerce fundamental para o treinamento descentralizado. Blogue: Papel: Código:
Estamos entusiasmados em abri-lo hoje, como um alicerce fundamental para o treinamento descentralizado. Blogue: Papel: Código:
29,84K