神經網絡中自適應的梯度下降優化算法（一）技术頭條網

學習率是神經網絡中非常難以設置的超參數之一。

對於大規模的神經網絡訓練我們經常採用mini-batch Gradient Descent，但是在MBGD中如何選擇合適的學習率是一個非常困難的問題。Learning Rate設置太小會導致神經網絡收斂緩慢，Learning Rate設置太大可能導致神經網絡在最小值附近波動甚至發散。

一種方案是在Trainning過程中動態調整Learning Rate。這種調整往往通過預先定義的策略進行調整或者當目標函數落在某個閾值中的時候進行調整，這些策略或者閾值是事先定義好的，不能自適應數據集自身的特徵。

此外，數據的特徵是不同的，用相同的Learning Rate調整所有的參數也部分場景下也是不合適的。比如我們的數據特徵是非常稀疏的，我們可能更傾向於為很少出現的feature更大的學習率；

為了解決這些問題，研究者提出了很多梯度優化算法。

Momentum優化算法

普通的梯度下降(MBGD、SGD等)方法的缺點是：它的梯度更新方向完全依賴於當前Batch數據計算出的梯度，因此易變，不穩定。

如上圖所示，蜿蜒曲折的河流流向低谷處，但是由於局部的高低起伏，河流並不是筆直的流向低谷，而是曲曲折折的流過去。梯度下降也有同樣的問題，由於局部梯度的波動，導致梯度下降過程總是以震盪的形式靠近局部最優解。

Momentum算法借用了物理中的動量概念。它模擬的是物體運動時的慣性，即更新的時候在一定程度上保留之前更新的方向，同時利用當前batch數據計算的梯度微調最終的更新方向。這樣一來，可以在一定程度上增加穩定性，從而學習地更快，並且還有一定擺脫局部最優的能力。Momentum通過引入γv(t-1)抑制震盪，加速SGD朝著相關的梯度方向迭代(如下圖所示)