10 jaar geleden, in mei 2015, publiceerden we de eerste werkende zeer diepe op gradienten gebaseerde feedforward neurale netwerken (FNN's) met honderden lagen (vorige FNN's hadden een maximum van een paar dozijn lagen). Om het probleem van de verdwijnende gradient te overwinnen, gebruikten onze Highway Networks de residuele verbindingen die voor het eerst in 1991 door @HochreiterSepp werden geïntroduceerd om een constante foutstroom in recurrente neurale netwerken (RNN's) te bereiken, gated door multiplicatieve poorten die vergelijkbaar zijn met de vergeetpoorten (Gers et al., 1999) van onze zeer diepe LSTM RNN. Highway NNs werden mogelijk gemaakt door het werk van mijn voormalige PhD-studenten @rupspace en Klaus Greff. Het instellen van de Highway NN-poorten op 1.0 geeft ons effectief de ResNet die 7 maanden later werd gepubliceerd. Diep leren draait allemaal om de diepte van neurale netwerken. LSTM's brachten in wezen onbeperkte diepte naar recurrente neurale netwerken; Highway Nets brachten het naar feedforward neurale netwerken.
20,65K