Hace 10 años, en mayo de 2015, publicamos las primeras redes neuronales feedforward (FNN) muy profundas basadas en gradientes que funcionaban, con cientos de capas (las FNN anteriores tenían un máximo de unas pocas docenas de capas). Para superar el problema del gradiente que se desvanece, nuestras Redes de Autopista utilizaron las conexiones residuales que fueron introducidas por primera vez en 1991 por @HochreiterSepp para lograr un flujo de error constante en las redes neuronales recurrentes (RNN), controladas a través de puertas multiplicativas similares a las puertas de olvido (Gers et al., 1999) de nuestra RNN LSTM muy profunda. Las Redes de Autopista fueron posibles gracias al trabajo de mis antiguos estudiantes de doctorado @rupspace y Klaus Greff. Configurar las puertas de la Red de Autopista en 1.0 nos da efectivamente el ResNet publicado 7 meses después. El aprendizaje profundo se trata de la profundidad de las redes neuronales. Las LSTM trajeron esencialmente una profundidad ilimitada a las RNN; las Redes de Autopista la llevaron a las FNN.
20,65K