Presentamos CheckFree Un método tolerante a fallos para el entrenamiento descentralizado, sin puntos de control ni computación redundante. Hasta 1.6 veces más rápido que los métodos existentes, sin pérdida de convergencia. Lo estamos haciendo de código abierto hoy.
La tolerancia a fallos es crítica en el entrenamiento descentralizado, ya que los nodos son poco fiables y propensos a fallos. Trabajos recientes han propuesto varios métodos de recuperación, aunque aún requieren computación redundante o puntos de control, lo que añade tiempo y recursos computacionales.
Cómo funciona CheckFree, en cambio, recupera la etapa fallida con los pesos promedio de sus etapas vecinas. Esto proporciona una forma eficiente de aproximar los pesos perdidos, con un efecto mínimo en la convergencia. Blog:
Esto desbloquea: – Hasta 1.6x más rápido en el tiempo de entrenamiento que el chequeo convencional – Hasta 1.2x más rápido que el uso de computación redundante – No se requiere memoria o computación adicional
Hoy lo estamos haciendo de código abierto, como un bloque de construcción clave para el entrenamiento descentralizado. Blog: Documento: Código:
Estamos emocionados de abrirlo como código fuente hoy, como un bloque de construcción clave para el entrenamiento descentralizado. Blog: Documento: Código:
29,84K