介紹幾種典型的深度學習架構。
卷積神經網絡(CNN)
卷積神經網絡由LeCun提出。在Kaggle競賽中取得了巨大成功。
典型的卷積網絡有兩部分。 第一個是負責特徵提取,由一對或多對卷積和子採樣/最大池化層組成。 第二部分是經典的全連接多層感知器,將提取的特徵作為輸入。如下圖所示。
卷積神經網絡架構
長短期記憶網絡(LSTM)
長短期記憶網絡是比較流行的一種網絡結構。
LSTM架構
長短期記憶網絡用兩個門來控制單元狀態的內容,一個是遺忘門(forget gate),決定了上一時刻的單元狀態有多少能夠保留到當前時刻;一個是輸入門(input gate),決定了當前時刻網絡的輸入有多少保留到單元狀態。LSTM使用輸出門(output gate)控制單元狀態有多少輸出到LSTM的當前輸出值。
GRU
GRU是 LSTM 的簡化版,但在大多數任務中其表現與 LSTM 不相伯仲。
GRU和LSTM對比
相比LSTM, GRU 有更少的參數,因此相對容易訓練且過擬合的問題要輕一些,在訓練數據較少時可以嘗試使用GRU。
更簡化的有迷你GRU。
迷你GRU
DB-LSTM
深度雙向LSTM
深度雙向LSTM
卷積殘差記憶網絡
卷積殘差記憶網絡是CNN和LSTM的一種結合。
卷積殘差記憶網絡架構