Vor 10 Jahren, im Mai 2015, veröffentlichten wir die ersten funktionierenden, sehr tiefen, gradientenbasierten Feedforward-Neuronalen Netzwerke (FNNs) mit Hunderten von Schichten (frühere FNNs hatten maximal einige Dutzend Schichten). Um das Problem des verschwindenden Gradienten zu überwinden, verwendeten unsere Highway-Netzwerke die Residualverbindungen, die 1991 von @HochreiterSepp eingeführt wurden, um einen konstanten Fehlerfluss in rekurrenten NNs (RNNs) zu erreichen, gesteuert durch multiplikative Tore, ähnlich den Vergessenstoren (Gers et al., 1999) unseres sehr tiefen LSTM-RNN. Highway-NNs wurden durch die Arbeit meiner ehemaligen Doktoranden @rupspace und Klaus Greff möglich gemacht. Wenn die Highway-NN-Tore auf 1,0 gesetzt werden, erhalten wir effektiv das ResNet, das 7 Monate später veröffentlicht wurde. Deep Learning dreht sich alles um die Tiefe der NNs. LSTMs brachten im Wesentlichen unbegrenzte Tiefe zu rekurrenten NNs; Highway Nets brachten sie zu Feedforward-NNs.
20,65K