Python機器學習-知識點彙總

2020-04-04 15:59:37 風信子編程

1，什麼樣的資料集不適合用深度學習？

數據集太小，數據樣本不足時，深度學習相對其它機器學習算法，沒有明顯優勢。
數據集沒有局部相關特性，目前深度學習表現比較好的領域主要是圖像／語音／自然語言處理等領域，這些領域的一個共性是局部相關性。圖像中像素組成物體，語音信號中音位組合成單詞，文本數據中單詞組合成句子，這些特徵元素的組合一旦被打亂，表示的含義同時也被改變。對於沒有這樣的局部相關性的數據集，不適於使用深度學習算法進行處理。舉個例子：預測一個人的健康狀況，相關的參數會有年齡、職業、收入、家庭狀況等各種元素，將這些元素打亂，並不會影響相關的結果。

2，softmax函數的數學推導及Python實現

　　softmax用於多分類過程中最後一層，將多個神經元的輸出，映射到（0, 1）區間內，可以看成概率來理解，從而來進行多分類！

　　softmax函數如下：

　　更形象的如下圖表示：

　　softmax 直白來說就是講原來輸出是 3, 1, -3 通過 softmax 函數一作用，就映射成為（0， 1）的值，而這些值的累和為1，那麼我們就可以將其理解成概率，在最後選取輸出節點的時候，我們可以選取概率最大的節點，作為我們的預測目標！

　　Python代碼實現：

# _*_coding:utf-8_*_

import tensorflow as tf

import numpy as np

import math

# softmax函數，或稱歸一化指數函數

def softmax(x, axis=1):

# 為了避免求 exp(x) 出現溢出的情況，一般需要減去最大值

# 計算每行的最大值

row_max = x.max(axis=axis)

# 每行元素都需要減去對應的最大值，否則求exp(x)會溢出，導致INF情況

row_max = row_max.reshpae(-1, 1)

x = x - row_max

x_exp = np.exp(x)

# 如果是列向量，則axis=0

x_sum = np.sum(x_exp, axis=1, keepdims=True)

s = x_exp / x_sum

return s

# 簡單一些

def softmax(x):

"""Compute softmax values for each sets of scores in x."""

e_x = np.exp(x - np.max(x))

return e_x / e_x.sum()

# 使用 tf的softmax函數

with tf.Session() as sess:

tf_s2 = tf.nn.softmax(x, axis=axis)

s2 = sess.run(tf_s2)

　　下面我們分析一下，減去最大值和不減去最大值是否有必要嗎？首先看代碼：

import numpy as np

def softmax(x):

"""Compute softmax values for each sets of scores in x."""

e_x = np.exp(x - np.max(x))

return e_x / e_x.sum()

def softmax1(x):

"""Compute softmax values for each sets of scores in x."""

return np.exp(x) / np.sum(np.exp(x), axis=0)

scores = [3.0, 1.0, 0.2]

print(softmax(scores))

print(softmax1(scores))

'''

結果輸出如下：

[0.8360188 0.11314284 0.05083836]

'''

　　其實兩個結果輸出是一樣的，即使第一個實現了每列和最大值的差異，然後除以總和，但是問題來了，實現在代碼和時間複雜度方面是否相似？哪一個更有效率？

　　當然，他們都是正確的，但是從數值穩定性的角度來看，第一個是正確的，因為我們避免了求 exp(x) 出現溢出的情況，這裡減去了最大值。我們推導一下：

# 轉化公式： a ^(b – c)=(a ^ b)/(a ^ c)

e ^ (x - max(x)) / sum(e^(x - max(x))

= e ^ x / (e ^ max(x) * sum(e ^ x / e ^ max(x)))

= e ^ x / sum(e ^ x)

3，歐氏距離和曼哈頓距離

　　歐氏距離（也稱為歐幾里得度量），是應用勾股定理計算兩個點之間的直線距離，也就是指m維空間兩個點之間的真實距離，或者向量的自然長度（即該點到原點的距離）。

　　下面是歐式距離的公式（分別是二維空間，三維空間，n維空間）：

　　曼哈頓距離表示的是兩個點在標準座標系上絕對軸距之和，是種使用在幾何度量空間的幾何學用語。

　　例如在平面上，座標（x1, y1）的i點與座標（x2, y2）的j點的曼哈頓距離為：

d(i,j)=|X1-X2|+|Y1-Y2|

　　如圖所示，很直接明瞭的理解歐氏距離和曼哈頓距離：

　　圖中紅線代表曼哈頓距離，綠色代表歐氏距離，也就是直線距離，而藍色和黃色代表等價的曼哈頓距離。

　　歐氏距離和曼哈頓距離的Python實現：

import numpy as np

def manhattan_distance(vec1, vec2):

"""

This method implements the manhattan distance metric

:param p_vec: vector one

:param q_vec: vector two

:return: the manhattan distance between vector one and two

"""

return np.sum(np.fabs(vec1 - vec2))

def edclidean_distance(vec1, vec2):

"""

This method implements the edclidean distance metric

:param vec1: vector one

:param vec2: vector two

:return: the edclidean distance between vector one and two

"""

# 方法一

distance = np.sqrt(np.sum(np.square(vec1 - vec2)))

# method 2

dist = np.linalg.norm(vec1 - vec2)

return distance

4，什麼是數據埋點

　　數據埋點我們可以分為兩類，其一是頁面統計，其二是行為統計。

　　頁面統計可以幫我們知曉某個頁面被多少人訪問了多少次，行為統計是指用戶在界面上的操作行為，應用最多的是按鈕的點擊次數。

5，請簡要說說一個完整的機器學習項目流程

5.1：抽象成數學問題

　　明確問題是進行機器學習的第一步。機器學習的訓練過程通常都是一件非常耗時的事情，胡亂嘗試時間成本是非常高的。　　這裡的抽象成數學問題，指的我們明確我們可以獲得什麼樣的數據，目標是一個分類還是迴歸或者是聚類的問題，如果都不是的話，如果劃歸為其中的某類問題。

5.2：獲取數據

　　數據決定了機器學習結果的上限，而算法只是儘可能逼近這個上限。數據要有代表性，否則必然會過擬合。而且對於分類問題，數據偏斜不能過於嚴重，不同類別的數據數量不要有數個數量級的差距。

　　而且還要對數據的量級有一個評估，多少個樣本，多少個特徵，可以估算出其對內存的消耗程度，判斷訓練過程中內存是否能夠放得下。如果放不下就得考慮改進算法或者使用一些降維的技巧了。如果數據量實在太大，那就要考慮分佈式了。

5.3 特徵預處理與特徵選擇

　　良好的數據要能夠提取出良好的特徵才能真正發揮效力。

　　特徵預處理、數據清洗是很關鍵的步驟，往往能夠使得算法的效果和性能得到顯著提高。歸一化、離散化、因子化、缺失值處理、去除共線性等，數據挖掘過程中很多時間就花在它們上面。這些工作簡單可複製，收益穩定可預期，是機器學習的基礎必備步驟。　　篩選出顯著特徵、摒棄非顯著特徵，需要機器學習工程師反覆理解業務。這對很多結果有決定性的影響。特徵選擇好了，非常簡單的算法也能得出良好、穩定的結果。這需要運用特徵有效性分析的相關技術，如相關係數、卡方檢驗、平均互信息、條件熵、後驗概率、邏輯迴歸權重等方法。

5.4：訓練模型與調優

　　直到這一步才用到我們上面說的算法進行訓練。現在很多算法都能夠封裝成黑盒供人使用。但是真正考驗水平的是調整這些算法的（超）參數，使得結果變得更加優良。這需要我們對算法的原理有深入的理解。理解越深入，就越能發現問題的癥結，提出良好的調優方案。

5.5：模型診斷

　　如何確定模型調優的方向與思路呢？這就需要對模型進行診斷的技術。　　過擬合、欠擬合判斷是模型診斷中至關重要的一步。常見的方法如交叉驗證，繪製學習曲線等。過擬合的基本調優思路是增加數據量，降低模型複雜度。欠擬合的基本調優思路是提高特徵數量和質量，增加模型複雜度。　　誤差分析也是機器學習至關重要的步驟。通過觀察誤差樣本，全面分析誤差產生誤差的原因：是參數的問題還是算法選擇的問題，是特徵的問題還是數據本身的問題……　　診斷後的模型需要進行調優，調優後的新模型需要重新進行診斷，這是一個反覆迭代不斷逼近的過程，需要不斷地嘗試，進而達到最優狀態。

5.6：模型融合

　　一般來說，模型融合後都能使得效果有一定提升。而且效果很好。　　工程上，主要提升算法準確度的方法是分別在模型的前端（特徵清洗和預處理，不同的採樣模式）與後端（模型融合）上下功夫。因為他們比較標準可複製，效果比較穩定。而直接調參的工作不會很多，畢竟大量數據訓練起來太慢了，而且效果難以保證。

5.7：上線運行

　　這一部分內容主要跟工程實現的相關性比較大。工程上是結果導向，模型在線上運行的效果直接決定模型的成敗。不單純包括其準確程度、誤差等情況，還包括其運行的速度(時間複雜度)、資源消耗程度（空間複雜度）、穩定性是否可接受。　　這些工作流程主要是工程實踐上總結出的一些經驗。並不是每個項目都包含完整的一個流程。這裡的部分只是一個指導性的說明，只有大家自己多實踐，多積累項目經驗，才會有自己更深刻的認識。

6，全連接神經網絡網絡結構

　　（此題參考：https://blog.csdn.net/cuiyuan605/article/details/84307323）

　　神經網絡算法，是使用計算機模擬生物神經系統，來模擬人類思維方式的算法。它的基本單位就是人工神經元。通過相互連接形成一張神經網絡。對於神經網絡有些瞭解的盆友可能都知道，神經網絡其實就是一個輸入 X（向量）到輸出 Y（向量）的映射函數：f(x) = Y，函數的係數就是我們所要訓練的網絡參數 W，只要函數係數確定下來，對於任何輸入xi，我們就能得到一個與之對應的輸出 yi，至於 yi 是否符合我們的預期，這就是輸入如何提高模型性能方面的問題。

　　生物神經網絡中，每個神經元與其他神經元連接，當它“激活”時，會傳遞化學物質到相連的神經元，改變其他神經元的電位，當電位達到一定“閾值”，那麼這個神經元也會被激活。

　　單個人工神經元的計算公式如下：

　　其中：

為輸入參數向量，表示其他神經元輸入的信號。

為每個輸入參數的權重值，表示對應神經元信號的權重。

　　theta 為閾值或者偏差值，是指該激活神經元的難易程度。

　　y 為神經元的輸出值，表示該神經元是否被激活。

　　Act() 為激活函數，理想的激活函數如下圖（a）中的躍階函數，“1” 為神經元興奮，“0”為神經元抑制，但由於躍階函數具有不是連續可導等不好的性質，因此一般採用下面（b）圖的 Sigmoid 函數作為激活函數：

　　下面定義一個全連接神經網絡：

　　全連接神經網絡，就是指每一層的每個神經元都和下一層的每個神經元項連接。

　　Layer：0 為輸入層

　　Layer：L 為輸出層

　　其他L-1 個Layer 為隱層

　　輸入 x ：

，我們稱一個輸入值 x 為一個樣本

　　輸出 y ：

，變量的上標（L）表示該變量出於神經網絡的那一層。

表示第 L 層編號為 i 的神經元

表示第 L 層的神經元數量

7，全連接神經網絡的前向傳播

　　前向傳播比較簡單，就是向量點乘，也就是加權求和，然後經過一個激活函數。也就是網絡如何根據輸入 X 得到輸出 Y的。

　　記

為第 l-1 層第 k個神經元到第 l 層第 j 個神經元的權重，

為第 l 層第 j 個神經元的偏置，

為第 l 層第 j 個神經元的激活值（激活函數的輸出）。不難看出

的值取決於上一層神經元的激活：

　　將上面重寫為矩陣形式：

　　為了方便表示，記

為每一層權重輸入，矩陣形式則變為

　　利用矩陣形式可以一層層計算網絡的激活值，最終能根據輸入X 得到相應的輸出

。

8，隨機梯度下降法

（此題參考：https://blog.csdn.net/qq_38150441/article/details/80533891 和 https://blog.csdn.net/qq_39037383/article/details/89156894）

　　梯度下降算法的思想就是根據人類在漸進學習中，不斷從錯誤中糾正自己的認知的過程中感觸到的。

8.1 梯度下降

　　簡單來說，梯度下降就是從山頂找一條最短的路走到山底最低的地方。但是因為選擇方向的原因，我們找到的最低點可能不是真正的最低點。如圖所示，黑色標註的路線所指的方向並不是真正的地方。（因為梯度下降是一種思想，沒有嚴格的定義，所以用一個比喻來解釋什麼是梯度下降）

　　既然是選擇一個方向下山，那麼這個方向該如何選？每次該怎麼走？

　　先說選的方向，在算法中是以隨機方式給出的，這也是造成有時候走不到真正最低點的原因。如果選定了方向，以後每走一步，都選擇的時最陡的方向，直到最低點。總結起來就是：隨機選擇一個方向，然後每次都選擇最陡的方向，直到這個方向上能達到的最低點。

　　在機器學習算法中，有時候需要對原始的模型構建損失函數，然後通過優化算法對損失函數進行優化，以便尋找到最優的參數，使得損失函數的值最小。而求解機器學習參數的優化算法中，使用最多的就是基於梯度下降的優化算法（Gradient Descent GD）。

　　梯度下降的優缺點：

優點：效率。在梯度下降法的求解過程中，只需求解損失函數的一階導數，計算的代價比較小，可以在很多大規模數據集上應用。
缺點：求解的時局部最優值，即由於方向選擇的問題，得到的結果不一定是全局最優步長選擇，過小使得函數收斂速度慢，過大又容易找不到最優解。

8.2 隨機梯度下降

　　隨機梯度下降（SGD）是一種簡單但非常有效地方法，多用於支持向量機，邏輯迴歸等凸損失函數下的線性分類器的學習。並且SGD已經成功應用於文本分類和自然語言處理中經常遇到的大規模和稀疏機器學習問題。SGD 既可以用於分類計算，也可以用於迴歸計算。

　　隨機梯度下降法不是對每個樣本集進行求梯度更新參數，而是對一個或者多個樣本進行求梯度，更新參數，採集多個樣本為樣本集再進行如下操作：

1.初始化參數為任意值（可以取到面上任意一點）

2.對樣本集裡每個樣本進行遍歷如下操作

1.求解梯度值

2.更新參數

3.若達到指定迭代次數或者收斂條件，則訓練結束

　　隨機梯度下降法不同於批量梯度下降，隨機梯度下降是每次迭代使用一個樣本來對參數進行更新。使得訓練速度加快。

　　對於一個樣本的目標函數為：

　　對目標函數求偏導：

　　參數更新：

　　隨機梯度下降的優缺點：

優點：由於不是在全部訓練數據上的損失函數，而是在每輪迭代中，隨機優化某一條訓練數據上損失函數，這樣每一輪參數的更新速度大大加快。
缺點：準確度下降，由於即使在目標函數為強凸函數的情況下，SGD仍舊無法做到線性收斂。可能會收斂到局部最優，而單個樣本並不能代表全體樣本的趨勢，而且不易於並行實現。

9，LR的原理和Loss的推導

　　首先，LR是一個分類模型，討論二分類情況下，在這個基礎上我們假設樣本服從伯努利分佈（0~1）分佈。做了假設分佈後下一步就是求分佈參數，這個過程一般採用極大似然估計MLE（Maximum Likelihood Estimation），具體的方法就是求該假設分佈在訓練樣本上的聯合概率（樣本帶入連乘），然後求其關於 theta 的最大值，為了方便計算所以一般取 -log，單調性保持不變，所有就有了 logLoss： L(Y, P(Y|X)) = - logP(Y|X)。

10，機器學習中，為何要經常對數據做歸一化

　　（參考文獻：https://blog.csdn.net/abc_138/article/details/82798674）

　　一般做機器學習應用的時候大部分時間是花費在特徵處理上，其中很關鍵的一步就是對特徵數據進行歸一化。

　　首先要明白歸一化的目的是什麼，其目的是為了避免數值較大的特徵A變化掩蓋了數值較小的特徵B變化，最終希望讓特徵AB都能對結果有影響。

　　那麼為什麼要做歸一化呢？

　　維基百科給出的解釋：1，歸一化後加快了梯度下降求最優解的速度。2，歸一化有可能提高精度。

解釋：歸一化為什麼能提高梯度下降法求解最優解的速度？

　　如下圖所示（來自：斯坦福機器學習視頻）

　　藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵 X1和 X2的區間差別非常大，X1區間為[0, 2000] ，x2區間是 [1, 5]，像這種有的數據那麼大，有的數據那麼小，兩類之間的幅度相差這麼大，其所形成的等高線非常尖。當使用梯度下降法尋求最優解時，很有可能走“之字型”路線（垂直等高線走），從而導致需要迭代很多次才能收斂。而右圖對兩個原始特徵進行了歸一化，其對應的等高線顯得很圓，在梯度下降進行求解時能較快的收斂，因此如果機器學習模型使用梯度下降法求最優解時，歸一化往往非常有必要，否則很難收斂，甚至不能收斂。

解釋：歸一化有可能提高精度

　　一些分類器需要計算樣本之間的距離（如歐式距離），例如KNN。如果一個特徵值域範圍非常大，那麼距離計算就主要取決於這個特徵，從而與實際情況相悖（比如這時實際情況是值域範圍小的特徵更重要）。

歸一化的類型

1，線性歸一化

　　這種歸一化方法比較適用於在數值比較集中的情況。這種方法有個缺陷，如果max和min 不穩定，很容易使得歸一化結果不穩定，使得後續使用效果也不穩定。實際使用中可以用經驗常量值來替代 max和 min。

2，標準差標準化

　　經過處理的數據符合標準正態分佈，即均值為0，標準差為1。

3，非線性歸一化

　　經常用在數據分化比較大的場景，有些數值很大，有些很小。通過一些數學函數，將原始值進行映射。該方法包括 log、指數，正切等。需要根據數據分佈的情況，決定非線性函數的曲線，比如log(V, 2)還是log(V, 10)等。

11，batch

　　深度學習中頻繁出現batch這個詞語，所以我們有必要了解一下。

　　深度學習中的優化算法，說白了就是梯度下降。每次的參數更新有兩種方式。

　　第一種，遍歷全部數據集算一次損失函數，然後算函數對各個參數的梯度，更新梯度。這張方式每更新一次參數都要把數據集裡的所有樣本都看一遍，計算量開銷大，計算速度慢，不支持在線學習，這稱為 Batch gradient descent，批梯度下降。

　　另一種，每看一個數據就算一下損失函數，然後求梯度更新參數，這個稱為隨機梯度下降， stochastic gradient descent。這個方法速度比較快，但是收斂性能不太好，可能在最優點附近晃來晃去， hit 不到最優點。兩次參數的更新也有可能互相抵消掉，造成目標函數震盪的比較劇烈。

　　為了克服兩種方法的缺點，現在一般採用的時一種折中手段，mini-batch gradient decent，小批的梯度下降，這種方法把數據分為若干個批，按批來更新參數。這樣一個批中的一組數據共同決定了本次梯度的方向，下降起來就不容易跑偏，減少了隨機性。另外一方面因為批次的樣本數與整個數據集相比少了很多，計算量也不是很大。

　　基本上現在的梯度下降都是基於 mini-batch的，所以Keras的模塊中經常會出現 batch_size，就是指這個。

12，關於機器學習擬合問題

12.1 什麼是機器學習過擬合？

　　所謂過擬合，就是指模型在訓練集上的效果很好，在測試集上的預測效果很差。

12.2 如何避免過擬合問題？

　　1，重採樣Bootstrap

　　2，L1，L2 正則化

　　3，決策樹的剪枝操作

　　4，交叉驗證

12.3 什麼是機器學習的欠擬合？

　　所謂欠擬合就是模型複雜度低或者數據集太小，對模型數據的擬合程度不高，因此模型在訓練集上的效果就不好。

12.3 如何避免欠擬合問題？

　　1，增加樣本數量

　　2，增加樣本特徵的數量

　　3，可以進行特徵維度擴展

12.4 算法的誤差一般是由那幾個方面引起的？

　　1，因模型無法表達基本數據的複雜度而造成的偏差（bias）——欠擬合

　　2，因模型過度擬合訓練集數據而造成的方差（variance）——過擬合

13，為什麼樸素貝葉斯如此“樸素”？

　　貝葉斯算法簡單高效，在處理分類問題上，是首先要考慮的方法之一。

　　貝葉斯分類是一類分類算法的總稱，這類算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。公式如下：

　　該公式最大的優點就是可以忽略AB 的聯合概率直接求其條件概率分佈。

　　而樸素貝葉斯為什麼如此樸素，因為他假定所有的特徵在數據集中的作用是同樣重要和獨立的。正如我們所知，這個假設在現實世界中是很不真實的，因此說樸素貝葉斯真的很“樸素”。

　　樸素貝葉斯分類是一種非常簡單的分類算法，其思想是樸素的。即：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，那個最大，就認為此待分類項屬於那個類別。

　　理論上，樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此，這是因為樸素貝葉斯模型給定輸出類別的情況下，假設屬性之間相互獨立，這個假設在實際應用中往往是不成立的，在屬性個數比較多或者屬性之間相關性較大時，分類效果不好。而在屬性相關性較小的時，樸素貝葉斯性能最為良好。對於這一點，有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。

14，反向傳播算法（BP算法）的推導及其Python實現

　　下面學習如何調整一個神經網絡的參數，也就是誤差反向傳播算法（BP算法）。以得到一個能夠根據輸入，預測正確輸出的模型。

14.1，首先我們要了解優化的目標

　　根據人工神經元的定義，有以下三個公式：

　　其中，Act() 是激活函數，之前學習過。

　　根據上面兩個公式，可以得出各個神經元之間的通用公式，如下：

　　其中上式是人工神經網絡正向傳播的核心公式。

　　那麼，我們根據什麼來調整神經網絡的參數，以得到一個能夠正確預測結果的模型呢？請看下面的公式：

　　上式用來計算我們期望的輸出和實際輸出的“差別”，其中cost() 叫做損失函數。我們的期望是損失函數值達到最小。

　　但是隻根據一次輸出的損失值，對參數進行調整，無法使模型適應所有輸入樣本。我們需要的是，調整參數，使得所有輸入樣本，得到輸出的總損失值最小，而不是隻讓妻子一個樣本的損失值最小，導致其他樣本損失值增大。因此有下面公式：

　　上式表示一個 batch 的所有樣本輸出的總損失值的平均值。其中，bn 表示一個 batch中樣本的數量。

　　為什麼不用所有的樣本計算損失值，而將所有樣本分成一個個的 batch呢？因為所有的訓練樣本數量太大了，可能有數以百萬計，將所有的樣本損失值都一起進行運算，計算量過於龐大，大大降低了模型計算的速度。

　　而計算總的損失值 C，其中是一個以所有的連接權重 W 和所有的閾值 theta 未為變量的多元函數。我們想要的模型就是求得 C 最小時，所有 W 和 theta 的值。直接計算顯然是不可能的，因為對於一個大的深度神經網絡，所有的參數變量，可能數以萬計。

　　在這裡我們使用梯度下降算法來逐步逼近 C的最小值，也即是先隨機得到一組參數變量的值，然後計算參數變量當前的梯度，向梯度的反方向，也就是C變小最快的方向，逐步調整參數值，最終得到 C 的最小值，或者近似最小值。

　　而將所有樣本，隨機分成一個個固定長度的 batch，以得到近似的梯度方向，叫做隨機梯度下降算法。

14.2 開始求梯度

　　那麼根據梯度的定義，接下來的任務，就是求取各個參數變量相對於 C 的偏導數。我們將使用誤差反向傳播算法來求取各個參數變量的偏導數。

　　求取偏導數的方法和神經網絡正向傳播（根據樣本計算輸出值）的方式類似，也是逐層求解，只是方向正好相反，從最後一層開始，逐層向前。

　　首先，我們先求神經網絡最後一層，也即是輸出層的相關參數的偏導數。為了降低推導的複雜性，我們只計算相對一個樣本的損失值函數 Cbi 的偏導數，因為相對於總損失值函數 C 的偏導數值，也不過是把某個參數的所有相對於 Cbi 偏導數值加起來而已。

　　根據上面公式，以及複合函數求導法則，可以得到輸出層（L層）某個神經元的權值參數 W 的偏導數，計算公式如下：

　　根據前面三個公式求導如下：

　　將這三個公式代入上面公式，可以得到：

　　我們令：

　　則：

　　將上式代入損失函數求導的公式中可以得到：

　　這樣我們就得到了輸出層 L 相關的權重參數 W 的偏導數計算公式！

　　接下來，同理可以求得輸出層 L 相關的閾值 theta 的偏導數計算公式為：

　　而根據第二個公式可以得到：

　　將上式代入到上上式可以得到：

　　這就是輸出層 L 相關的閾值 theta 的偏導數計算公式！

14.3 根據 L 層，求前一層參數的偏導函數

　　從下面公式，可知，一個權重參數 W 隻影響一個 L-1 層的神經元：

　　因此可以得到有下面公式：

　　將上式代入到上上式可以得到：

　　根據假設：

　　我們可以得到：

　　將上式代入到上上式，可以得到：

　　同理，我們可以得到：

　　根據14.3 第一個公式可以得到：

　　將上式代入到上上式，可以得到：

　　這樣我們就得到了 L-1 層神經元相關參數的計算公式。

　　下面我們還需要推導一下

之間的關係，根據下面公式：

　　我們可以得到：

　　同理可得：

　　將上式代入到上上式，可以得：

　　我們知道，一個權重參數 W 隻影響一個 L-1 層的神經元，但這個 L-1 層神經元影響了所有 L層的神經元。因此，根據多元複合函數求導法則。有：

　　根據我們之前的假設，可以得到：

　　將上式代入到上上式，可以得到：

　　我們可以知道：

　　將上式代入到上上式，可以得到：

　　最後將上式代入之前的公式，可以得到：

　　這樣我們就得到了反向傳播，逐層推導的通用公式：

　　這裡， W 和 Z 都是整箱傳播過程中已經算好的常數，而

可以從 L層開始逐層向前推導，直到第1層，第0層是輸入層，不需要調整參數，而第L層的參數可以參考下面公式：

　　下面是全連接神經網絡的Python實現代碼：

#coding=utf-8

import numpy as np

import matplotlib.pylab as plt

import random

class NeuralNetwork(object):

def __init__(self, sizes, act, act_derivative, cost_derivative):

#sizes表示神經網絡各層的神經元個數，第一層為輸入層，最後一層為輸出層

#act為神經元的激活函數

#act_derivative為激活函數的導數

#cost_derivative為損失函數的導數

self.num_layers = len(sizes)

self.sizes = sizes

self.biases = [np.random.randn(nueron_num, 1) for nueron_num in sizes[1:]]

self.weights = [np.random.randn(next_layer_nueron_num, nueron_num)

for nueron_num, next_layer_nueron_num in zip(sizes[:-1], sizes[1:])]

self.act=act

self.act_derivative=act_derivative

self.cost_derivative=cost_derivative

#前向反饋（正向傳播）

def feedforward(self, a):

#逐層計算神經元的激活值，公式(4)

for b, w in zip(self.biases, self.weights):

a = self.act(np.dot(w, a)+b)

return a

#隨機梯度下降算法

def SGD(self, training_data, epochs, batch_size, learning_rate):

#將訓練樣本training_data隨機分為若干個長度為batch_size的batch

#使用各個batch的數據不斷調整參數，學習率為learning_rate

#迭代epochs次

n = len(training_data)

for j in range(epochs):

random.shuffle(training_data)

batches = [training_data[k:k+batch_size] for k in range(0, n, batch_size)]

for batch in batches:

self.update_batch(batch, learning_rate)

print("Epoch {0} complete".format(j))

def update_batch(self, batch, learning_rate):

#根據一個batch中的訓練樣本，調整各個參數值

nabla_b = [np.zeros(b.shape) for b in self.biases]

nabla_w = [np.zeros(w.shape) for w in self.weights]

for x, y in batch:

delta_nabla_b, delta_nabla_w = self.backprop(x, y)

nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]

nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]

#計算梯度，並調整各個參數值

self.weights = [w-(learning_rate/len(batch))*nw for w, nw in zip(self.weights, nabla_w)]

self.biases = [b-(learning_rate/len(batch))*nb for b, nb in zip(self.biases, nabla_b)]

#反向傳播

def backprop(self, x, y):

#保存b和w的偏導數值

nabla_b = [np.zeros(b.shape) for b in self.biases]

nabla_w = [np.zeros(w.shape) for w in self.weights]

#正向傳播

activation = x

#保存每一層神經元的激活值

activations = [x]

#保存每一層神經元的z值

zs = []

for b, w in zip(self.biases, self.weights):

z = np.dot(w, activation)+b

zs.append(z)

activation = self.act(z)

activations.append(activation)

#反向傳播得到各個參數的偏導數值

#公式(13)

d = self.cost_derivative(activations[-1], y) * self.act_derivative(zs[-1])

#公式(17)

nabla_b[-1] = d

#公式(14)

nabla_w[-1] = np.dot(d, activations[-2].transpose())

#反向逐層計算

for l in range(2, self.num_layers):

z = zs[-l]

sp = self.act_derivative(z)

#公式(36)，反向逐層求參數偏導

d = np.dot(self.weights[-l+1].transpose(), d) * sp

#公式(38)

nabla_b[-l] = d

#公式(37)

nabla_w[-l] = np.dot(d, activations[-l-1].transpose())

return (nabla_b, nabla_w)

#距離函數的偏導數

def distance_derivative(output_activations, y):

#損失函數的偏導數

return 2*(output_activations-y)

# sigmoid函數

def sigmoid(z):

return 1.0/(1.0+np.exp(-z))

# sigmoid函數的導數

def sigmoid_derivative(z):

return sigmoid(z)*(1-sigmoid(z))

if __name__ == "__main__":

#創建一個5層的全連接神經網絡，每層的神經元個數為1，8，5，3，1

#其中第一層為輸入層，最後一層為輸出層

network=NeuralNetwork([1,8,5,3,1],sigmoid,sigmoid_derivative,distance_derivative)

#訓練集樣本

x = np.array([np.linspace(-7, 7, 200)]).T

#訓練集結果，由於使用了sigmoid作為激活函數，需保證其結果落在(0,1)區間內

y = (np.cos(x)+1)/2

#使用隨機梯度下降算法（SGD）對模型進行訓練

#迭代5000次；每次隨機抽取40個樣本作為一個batch；學習率設為0.1

training_data=[(np.array([x_value]),np.array([y_value])) for x_value,y_value in zip(x,y)]

network.SGD(training_data,5000,40,0.1)

#測試集樣本

x_test = np.array([np.linspace(-9, 9, 120)])

#測試集結果

y_predict = network.feedforward(x_test)

#圖示對比訓練集和測試集數據

plt.plot(x,y,'r',x_test.T,y_predict.T,'*')

plt.show()

分享到:

閱讀更多 風信子編程 的文章

關鍵字: 上式 Python 歐幾里得

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習——詳解KD-Tree來龍去脈

機器學習-數據降維

機器學習—CER字錯率計算

機器學習——詳解經典聚類算法Kmeans

機器學習：潛在語義分析

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型

機器學習：如何計算CNN中的參數數量？

機器學習-模型的評估和選擇

05.15 機器學習-我媽媽也能看懂的入門篇

數據科學家基礎能力——機器學習

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

Python機器學習-知識點彙總

2，softmax函數的數學推導及Python實現

3，歐氏距離和曼哈頓距離

4，什麼是數據埋點

5，請簡要說說一個完整的機器學習項目流程

5.1：抽象成數學問題

5.2：獲取數據

5.3 特徵預處理與特徵選擇

5.4：訓練模型與調優

5.5：模型診斷

5.6：模型融合

5.7：上線運行

6，全連接神經網絡網絡結構

7，全連接神經網絡的前向傳播

8，隨機梯度下降法

8.1 梯度下降

8.2 隨機梯度下降

9，LR的原理和Loss的推導

10，機器學習中，為何要經常對數據做歸一化

解釋：歸一化為什麼能提高梯度下降法求解最優解的速度？

解釋：歸一化有可能提高精度

歸一化的類型

11，batch

12，關於機器學習擬合問題

12.1 什麼是機器學習過擬合？

12.2 如何避免過擬合問題？

12.3 什麼是機器學習的欠擬合？

12.3 如何避免欠擬合問題？

12.4 算法的誤差一般是由那幾個方面引起的？

13，為什麼樸素貝葉斯如此“樸素”？

14，反向傳播算法（BP算法）的推導及其Python實現

14.1，首先我們要了解優化的目標

14.2 開始求梯度

14.3 根據 L 層，求前一層參數的偏導函數

相關文章:

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習——詳解KD-Tree來龍去脈

機器學習-數據降維

機器學習—CER字錯率計算

機器學習——詳解經典聚類算法Kmeans

機器學習：潛在語義分析

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型

機器學習：如何計算CNN中的參數數量？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪