2019-01-22 18:07:41 極客Array

殘差網絡（Residual Networks (ResNets)）

非常非常深的神經網絡是很難訓練的

，非常非常深的神經網絡是很難訓練的，非常非常深的神經網絡是很難訓練的，記住這句話！

因為存在梯度消失和梯度爆炸問題。

這節課我們學習跳躍連接（Skip connection），它可以從某一層網絡層獲取激活，然後迅速反饋給另外一層，甚至是神經網絡的更深層。我們可以利用跳躍連接構建能夠訓練深度網絡的ResNets，有時深度能夠超過100層，讓我們開始吧。

ResNets是由殘差塊（Residual block）構建的，首先我解釋一下什麼是殘差塊。

這是一個兩層神經網絡，在L層進行激活，得到a^[l+1] ，再次進行激活，兩層之後得到a^[l+2] 。

計算過程是從a^([l])開始，首先進行線性激活，根據這個公式：z^[l+1] =W^[l+1] a^([l])+b^[l+1] ，通過a^([l])算出z^[l+1] ，即a^([l])乘以權重矩陣，再加上偏差因子。

然後通過ReLU非線性激活函數得到a^[l+1] ，a^[l+1] =g(z^[l+1] )計算得出。接著再次進行線性激活，依據等式z^[l+2] =W^[2+1] a^[l+1] +b^[l+2] ，

最後根據這個等式再次進行ReLu非線性激活，即a^[l+2] =g(z^[l+2] )，這裡的g是指ReLU非線性函數，得到的結果就是a^[l+2] 。

換句話說，信息流從a^[l] 到a^[l+2] 需要經過以上所有步驟，即這組網絡層的主路徑。

在殘差網絡中有一點變化，我們將a^([l])直接向後，拷貝到神經網絡的深層，在ReLU非線性激活函數前加上a^([l])，這是一條捷徑。捷徑哎，記得吶~

a^([l])的信息直接到達神經網絡的深層，不再沿著主路徑傳遞，這就意味著最後這個等式(a^[l+2] =g(z^[l+2] ))去掉了，取而代之的是另一個ReLU非線性函數，仍然對z^[l+2] 進行 g函數處理，但這次要加上a^([l])，即： a^[l+2] =g(z^[l+2] +a^([l]) )，也就是加上的這個a^([l])產生了一個殘差塊。

在上面這個圖中，我們也可以畫一條捷徑，直達第二層。實際上這條捷徑是在進行ReLU非線性激活函數之前加上的，而這裡的每一個節點都執行了線性函數和ReLU激活函數。

所以a^([l])插入的時機是在線性激活之後，ReLU激活之前。除了捷徑，你還會聽到另一個術語“跳躍連接”，就是指a^([l])跳過一層或者好幾層，從而將信息傳遞到神經網絡的更深層。

ResNet的發明者是何愷明（Kaiming He）、張翔宇（Xiangyu Zhang）、任少卿（Shaoqing Ren）和孫劍（Jiangxi Sun），他們發現使用殘差塊能夠訓練更深的神經網絡。所以構建一個ResNet網絡就是通過將很多這樣的殘差塊堆積在一起，形成一個很深神經網絡，我們來看看這個網絡。