Há 10 anos, em maio de 2015, publicamos as primeiras redes neurais feedforward (FNNs) muito profundas baseadas em gradientes, com centenas de camadas (as FNNs anteriores tinham no máximo algumas dezenas de camadas). Para superar o problema do gradiente que desaparece, nossas Highway Networks usaram as conexões residuais introduzidas pela primeira vez em 1991 por @HochreiterSepp para alcançar um fluxo de erro constante em redes neurais recorrentes (RNNs), controladas por portas multiplicativas semelhantes às portas de esquecimento (Gers et al., 1999) da nossa LSTM RNN muito profunda. As Highway NNs foram possibilitadas pelo trabalho dos meus ex-alunos de doutorado @rupspace e Klaus Greff. Definir as portas da Highway NN para 1.0 nos dá efetivamente a ResNet publicada 7 meses depois. O aprendizado profundo é tudo sobre a profundidade das redes neurais. As LSTMs trouxeram essencialmente profundidade ilimitada para as RNNs; as Highway Nets trouxeram isso para as FNNs.
20,69K