許多訓練算法存在於神經網絡中

神經網絡的學習算法試圖優化神經網絡的權重，直到滿足一些停止條件。這種情況通常是在網絡錯誤達到訓練集合的可接受水平時，驗證集上的網絡錯誤開始惡化時或者當指定的計算預算已經用盡時。神經網絡最常見的學習算法是反向傳播：這是一種使用隨機梯度下降的算法，這在本系列前面已經討論過。反向傳播包含兩個步驟：

前饋通道：將訓練數據集通過網絡並記錄神經網絡的輸出，並計算網絡的誤差。
向後傳播：誤差信號通過網絡傳回，神經網絡的權重使用梯度下降進行優化。

這種方法存在一些問題。一次調整所有權重可導致神經網絡在權重空間中的明顯移動，梯度下降算法非常慢，並且梯度下降算法易受局部最小值影響。前兩個問題可以通過使用梯度下降變種包括動量梯度下降（速傳），涅斯捷羅夫的加速動力（NAG）梯度下降的自適應梯度算法（AdaGrad），彈性傳播（RPROP）以及均方根傳播（RMSProp）來解決。從下面的圖片可以看出，經典的梯度下降算法可以有顯著的改進。

也就是說，這些算法無法克服局部最小值，並且在嘗試同時優化神經網絡的體系結構和權重時也不太有用。為了實現這一點，我們需要全局優化算法。目前兩種流行的全局優化算法是粒子群優化（PSO）和遺傳算法（GA）。

神經網絡矢量表示

全局優化算法通過將神經網絡編碼為權重矢量來完成，每個權重表示神經網絡中連接的權重。我們可以使用大多數元啟發式搜索算法來訓練神經網絡。這種技術在深度神經網絡中效果不佳，因為它會使矢量變得太大。

粒子群優化

為了訓練使用PSO的神經網絡，我們可以構建這些神經網絡的總體/群體。每個神經網絡都被表示為一個權重向量，並根據其從全球最佳粒子及其個人最佳位置進行調整。

在完成訓練數據集的一個前饋通過之後，適應度函數被計算為重建的神經網絡的總和平方誤差，這種方法主要考慮的是權重更新的速度。這是因為如果權重調整過快，神經網絡的總和平方誤差將停滯並且不會發生學習。

遺傳算法

為了使用遺傳算法訓練神經網絡，我們首先構建代表神經網絡的矢量群體。然後，我們將三個遺傳算法應用於該群體，以發展更好的神經網絡。這三個遺傳算法是：

選擇：使用一次前饋通過後計算的每個網絡的總和平方誤差，我們對神經網絡的總體進行排序。總體中最高的x％被選擇為“生存”到下一代，並用於交叉。
交叉：總體基因的頂部x％被允許相互交叉，這個過程形成“後代”。在上下文中，每個後代都將代表一個來自兩個“父”神經網絡的權重的新神經網絡。
突變：該遺傳算法需要保持群體的遺傳多樣性。選擇一小部分進行突變，這些神經網絡中的一些權重將在特定範圍內隨機調整。

除了這些基於人群的啟發式搜索算法，其他算法已被用於訓練神經網絡，包括增添了動力反向傳播，差分進化，模擬退火，和許多更多。就個人而言，我建議使用局部和全局優化算法的組合來克服兩者的缺點。

神經網絡並不總是需要大量的數據

神經網絡可以使用三種學習策略，即監督學習策略，無監督學習策略或強化學習策略。監督式學習策略至少需要兩個數據集，一個由預期輸出的輸入量組成的訓練集，以及一個由沒有預期輸出的輸入組成的測試集。這兩個數據集都必須包含標記數據，即預先知道目標的數據模式。無監督學習策略通常用於發現未標記數據中的隱藏結構（如，隱馬爾可夫鏈），它們的行為與聚類算法類似。強化學習是基於一個簡單的前提，就是獎勵好行為的神經網絡並懲罰他們的壞行為。由於無監督和強化學習策略不要求數據被標記，因此它們可以應用於很多我們人類未知的問題。

無監督學習

最受歡迎的無監督神經網絡體系結構之一是自組織映射（也稱為Kohonen映射）。自組織映射基本上算是一種多維縮放技術，它可以構建一個基本數據集

Z的概率密度函數的近似值，同時保留該數據集的拓撲結構。這可以通過將數據集Z中的輸入向量zi映射到特徵映射V中的權重向量v j（神經元）來完成。保留拓撲結構僅僅意味著如果兩個輸入向量在Z中靠近在一起，那麼這些輸入向量映射到的神經元V 也將靠近在一起。