監督學習模型評價指標技术頭條網

監督學習是最常用的人工智能算法模型，監督學習又分為迴歸和分類，其實二者在算法思路上是一致的，只不過迴歸是對連續性輸出數據建模，而分類一般的輸出數據為離散的。模型的評價指標是訓練模型的嚮導，只有選擇正確的模型評價指標才能訓練出正確有效的模型。

對於迴歸模型的評價指標很簡單，一般來說最常用的就是均方誤差（MSE）。而對於人工智能應用場景最為廣泛的分類模型來說，情況會更復雜一些。分類模型的評價指標要分為二分類和多分類兩種情況進行討論。

在討論分類模型的評價指標之前，我們先來看一個表格，這個表格有個名字的叫做 混淆矩陣，也叫誤差矩陣。

這是一個二分類模型的樣本數據中實際值和預測值的分佈情況，先了解幾個概念，都是在模型中常出現的。

一般來說 1 表示陽性，0表示陰性

準確率（accuracy）= (A+D)/(A+B+C+D)

敏感度（specificity）= A/(A+C)，也叫真陽性率，也叫召回率(Recall)

特異度（Sensitivity）= D/(B+D)，也叫真陰性率

準確率我們很好理解，就是總體預測對的比例，其他兩個指標我們很容易混淆，我們可以這樣理解它們表示每個類別預測對的比例。

那麼有人會問，只用準確率來評價模型不就行了。實際上，數學建模是嚴謹的，這就涉及到樣本均衡的問題，在樣本均衡的條件下，一般來說可以用準確率來評價模型。那麼什麼是樣本均衡呢？就是樣本的實際分佈中，每個類別的樣本數量分佈比例相同。比如1000個樣本數據，0類別樣本大約500個，1類別樣本也是約500個，並且實際數據分佈也是這樣。但是在多數實際業務分類場景中，這種情況不多，更多的是樣本分佈不均衡的情況。那麼單純用準確率來評價模型就不對了，比如極端情況，樣本中類別0數據量非常多，模型最終類別0可能分類特別準，而類別1幾乎全部分類錯誤，那麼模型整體準確率依然很高，其實這個模型是不可用的。

那麼用什麼指標來評價模型是科學的呢？F1-score瞭解一下。

精確率(Precision)= A/(A+C)，（注意不是準確率）

F1-score = 2(Precision × Recall)/(Precision + Recall)

它的值在0~1之間，並且值越大，模型分類效果越好，但是在實際業務模型中它沒有一個實際的業務解釋。

對於二分類問題，還有ROC曲線和AUC值也可以用於評價模型的效果。

下面來討論下多分類模型，對於多分類模型以上指標中總體準確率肯定是類似的即全部預測對的數量佔總樣本量的比例。

其他的指標如精確率，召回率，也都可以計算，那麼對於F1-score值對於每個類別分開來計算也是可以的，計算的時候將其他非該類別的看作一類來對待，那麼就成為了二分類問題。那麼對於總體模型來說的評價指標一般取以上指標的平均值或總體準確率。

特別的，在多分類中有些文獻中，也分別計算每種類別的準確率，

即把其他類別作為非該類別整體看作二分類問題來計算準確率，這個指標不常用。

另外對於之前說的樣本不均衡的解決問題，看實際業務可以根據場景對某個類別在求均值的時候加上權重。

具體的模型評價可以參考sklearn的包：

from sklearn.model_selection import cross_val_score