Apresentando o CheckFree Um método tolerante a falhas para treinamento descentralizado, sem pontos de verificação ou computação redundante. Até 1,6x mais rápido do que os métodos existentes, sem perda de convergência. Estamos tornando isso open source hoje.
A tolerância a falhas é crítica no treinamento descentralizado, uma vez que os nós são pouco confiáveis e propensos a falhas. Trabalhos recentes propuseram vários métodos de recuperação, embora ainda exijam computação redundante ou checkpointing, adicionando tempo e computação.
Como funciona O CheckFree, em vez disso, recupera o estágio falhado com os pesos médios dos estágios vizinhos. Isto fornece uma maneira eficiente de aproximar os pesos perdidos, com efeito mínimo na convergência. Blog:
Isto desbloqueia: – Até 1,6x mais rápido no tempo de treino do que o checkpointing convencional – Até 1,2x mais rápido do que usar computação redundante – Sem memória ou computação adicional necessária
Estamos a abrir o código hoje, como um bloco de construção chave para o treinamento descentralizado. Blog: Paper: Código:
Estamos entusiasmados por abrir o código hoje, como um bloco de construção fundamental para o treinamento descentralizado. Blog: Paper: Código:
29,84K