深度學習優化方法系列(一)

深度學習優化方法系列(一)

優化方法是一種數學方法,它是研究在給定約束條件之下如何尋求某些因素的量,以使需求的某指標達到最優的一些學科的總稱。不論是學習還是工作中,優化方法都扮演著重要的角色。比如在機器學習算法當中,大部分算法的本質就是建立優化模型,通過最優化方法對目標函數進行優化從而訓練出最好的模型。接下來將對常見的優化方法進行簡單的介紹。

首先帶來的是流優化手段SGD。

深度學習優化方法系列(一)

Stochastic gradient descent 即隨機梯度下降,也稱為增量梯度下降,通常簡稱為SGD,它是用於優化可微分目標函數的迭代方法,梯度下降優化的隨機近似。

相對於GD和SGD的一些延伸形式,SGD明顯更受研究者和使用者的寵愛。這種受歡迎的現象並不是沒有緣由的,從類似直覺動機方面來看,SGD能更有效的利用信息,尤其是在信息十分冗餘的時刻,其有效程度表現的更加明顯;在實驗層來說,相對於非隨機算法,SGD在前期的迭代效果卓越;理論上SGD也同樣表現出它的優越性,如果樣本數量大,SGD的Comlexity依然有優勢。

但是,在優化方面並沒有最完美的一種方法,SGD同樣存在缺點,但缺點的存在會不斷推進更好的優化方法的衍生。選擇合適的learning rate比較困難—— 對所有的參數更新使用同樣的learning rate。對於稀疏數據或者特徵,有時我們可能想更新快一些,對於常出現的特徵我們可能想更新慢一些,這時候SGD就不太能滿足要求了。與此同時,SGD容易收斂到局部最優,並且在某些情況下可能被困在鞍點。

以上就是對隨機梯度下降SGD的簡單介紹。


分享到:


相關文章: