2018-12-23 21:59:20 極客Array

神經網絡的權重初始化（Weight Initialization for Deep NetworksVanishing / Exploding gradients）

上節課，我們學習了深度神經網絡如何產生梯度消失和梯度爆炸問題，最終針對該問題，我們想出了一個不完整的解決方案，雖然不能徹底解決問題，卻很有用，有助於我們為神經網絡更謹慎地選擇隨機初始化參數，為了更好地理解它，我們先舉一個神經單元初始化地例子，然後再演變到整個深度網絡。

我們來看看只有一個神經元的情況，然後才是深度網絡。

單個神經元可能有4個輸入特徵，從x_1到x_4，經過a=g(z)處理，最終得到^y，稍後講深度網絡時，這些輸入表示為a^([l])，暫時我們用x表示。

z=w_1 x_1+w_2 x_2+⋯+w_n x_n，b=0，暫時忽略b，

為了預防z值過大或過小，你可以看到n越大，你希望w_i越小，因為z是w_i x_i的和，如果你把很多此類項相加，希望每項值更小，最合理的方法就是設置w_i=1/n，n表示神經元的輸入特徵數量，實際上，你要做的就是設置某層權重矩陣

，n^([l-1])就是我餵給第l層神經單元的數量（即第l-1層神經元數量）。

結果，如果你是用的是Relu激活函數，而不是1/n，方差設置為2/n，效果會更好。

你常常發現，初始化時，尤其是使用Relu激活函數時，g^([l]) (z)=Relu(z),它取決於你對隨機變量的熟悉程度，這是高斯隨機變量，然後乘以它的平方根，也就是引用這個方差2/n。

這裡，我用的是n^([l-1])，因為本例中，邏輯迴歸的特徵是不變的。但一般情況下l層上的每個神經元都有n^([l-1])個輸入。

如果激活函數的輸入特徵被零均值和標準方差化，方差是1，z也會調整到相似範圍，這就沒解決問題（梯度消失和爆炸問題）。但它確實降低了梯度消失和爆炸問題，因為它給權重矩陣w設置了合理值，你也知道，它不能比1大很多，也不能比1小很多，所以梯度沒有爆炸或消失過快。

我提到了其它變體函數，剛剛提到的函數是Relu激活函數，一篇由Herd等人撰寫的論文曾介紹過。

對於幾個其它變體函數，如tanh激活函數，有篇論文提到，常量1比常量2的效率更高，對於tanh函數來說，它是√(1/n^([l-1]) )，這裡平方根的作用與這個公式作用相同

(np.sqrt(1/n^([l-1]) ))，它適用於tanh激活函數，被稱為Xavier初始化。

Yoshua Bengio和他的同事還提出另一種方法，你可能在一些論文中看到過，它們使用的是公式√(2/(n^([l-1])+n^[l] ))。

其它理論已對此證明，

但如果你想用Relu激活函數，也就是最常用的激活函數，

我會用這個公式np.sqrt(2/n^([l-1]) )，

如果使用tanh函數，可以用公式√(1/n^([l-1]) )，有些作者也會使用這個函數。

實際上，我認為所有這些公式只是給你一個起點，它們給出初始化權重矩陣的方差的默認值，如果你想添加方差，方差參數則是另一個你需要調整的超級參數，可以給公式np.sqrt(2/n^([l-1]) )添加一個乘數參數，調優作為超級參數激增一份子的乘子參數。

有時調優該超級參數效果一般，這並不是我想調優的首要超級參數，但我發現調優過程中產生的問題，雖然調優該參數能起到一定作用，但考慮到相比調優，其它超級參數的重要性，我通常把它的優先級放得比較低。

希望你現在對梯度消失或爆炸問題以及如何為權重初始化合理值已經有了一個直觀認識，希望你設置的權重矩陣既不會增長過快，也不會太快下降到0，從而訓練出一個權重或梯度不會增長或消失過快的深度網絡。我們在訓練深度網絡時，這也是一個加快訓練速度的技巧。

分享到:

閱讀更多 極客Array 的文章

關鍵字: 人工智能神經網絡機器學習

吳恩達深度學習筆記(37)-神經網絡的權重初始化再解析

神經網絡的權重初始化（Weight Initialization for Deep NetworksVanishing / Exploding gradients）

相關文章:

吳恩達深度學習筆記(37)-神經網絡的權重初始化再解析

神經網絡的權重初始化（Weight Initialization for Deep NetworksVanishing / Exploding gradients）

相關文章:

深度學習-Pytorch框架學習之模型訓練和測試

深度學習-Pytorch框架學習之張量處理篇

目標檢測之numpy——向量和矩陣乘法相關

“深度學習”第一實踐課，收穫NVIDIA開發者證書

ScrabbleGAN；UnrealText；跟蹤模型；G2L-Net等

目標檢測之tensorflow——padding選擇

深度學習/目標檢測之tensorflow——莫煩教程總結（19-20）

深度學習/目標檢測之tensorflow——莫煩教程總結（14-）

深度學習/目標檢測之tensorflow——莫煩教程總結（1-13）

一文弄懂Resnet

深度神經網絡應如何避免過擬合

PyTorch保存和加載多GPU模型和單GPU模型

Vgg網絡解讀

人工智能知識點：python+機器學習+深度學習，附贈全套視頻教程

量化交易學習筆記（二十三）——自定義Indicator

深度學習中，一般如何防止過擬合？

人工智能編程：如何為神經網絡每一層設置不同的梯度下降學習率？

match：一款基於深度學習的層級問答匹配工具

人工智能編程：神經網絡的反向傳播的自動求導是如何計算的？

pytorch中的where和gather的介紹

深度學習編程：張量的運算（通過人工智能框架pytorch實現）

深度學習-LSTM算法實現（MNIST手寫數字識別）

深度學習-遷移學習流程及代碼解析

提升訓練質量的技巧合集

深度學習 pytorch實戰 神經網絡分類任務

深度學習 pytorch實戰 神經網絡關係擬合

反向R？削弱顯著特徵為細粒度分類帶來提升

組合求解器 + 深度學習 =？這篇ICLR 2020論文告訴你答案

深度學習理論與實戰PyTorch實現

深度學習/圖像處理歷史最全最細-網絡、技巧、迭代-論文整理分享

可以丟掉SGD和Adam了，新的深度學習優化器Ranger：RAdam + LookAhead強強結合

使用 TensorFlow 來實現一個簡單的驗證碼識別過程

深度自適應性Transformer

深度學習中的多任務學習綜述

梯度之上：海森矩陣

「深度學習」用TensorFlow實現人臉識別（附源碼，快速get技能）

卷積神經網絡CNN

深度學習——你需要了解的八大開源框架

Tensorflow實戰-TensorFlow的正則化實現

深度學習：所有矩陣尺寸和計算的深層指南！

Kafka +深度學習+ MQTT搭建可擴展的物聯網平台「附源碼」

深度學習：基本概念深度解析

深度學習 Python 必備知識點

DeepLearning-Ng編程中遇到的一些問題

05.09 使用TensorFlow構建簡單的生成對抗網絡（GAN）

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

深度學習 pytorch實戰神經網絡分類任務

深度學習 pytorch實戰神經網絡關係擬合

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？