03.28 通過哪些指標來評價一個分類模型的性能

當一個模型構建完成之後,我們可以通過幾個不同的性能指標來衡量分類模型的相關性能,常用的分類性能指標有準確率(precision)、召回率(recall)和F1分數(F1-score)。

通過哪些指標來評價一個分類模型的性能

一、混淆矩陣

混淆矩陣(confusion matrix):是展示分類學習算法的一種性能矩陣(方陣),包括分類器預測結果真正(true positive)、真負(true negative)、假正(false positive)、假負(false negative)的數量,如下圖:

通過哪些指標來評價一個分類模型的性能

真正:實際是正類別,預測也是正類別

假負:實際是正類別,預測成了負類別

真負:實際是負類別,預測也是負類別

假正:實際是負類別,預測成了正類別

通過sklearn的confusion_matrix函數和matplotlib來實現混淆矩陣的繪製

通過哪些指標來評價一個分類模型的性能

通過哪些指標來評價一個分類模型的性能

其中,1為正類別(惡性),0為負類別(良性)。通過混淆矩陣可以發現,模型正確的預測了71個負類別和39個正類別,其中將1個負類別錯誤的預測為了正類別,將3個正類別錯誤的預測為了負類別。

二、模型的準確率和召回率

預測誤差(error,ERR)和準確率(accuracy,ACC)都表示了誤分類樣本數量的相關信息,其中ERR=1-ACC。預測誤差,為預測錯誤樣本的數量與所有樣本數量的比值。準確率,為預測正確樣本的數量與所有樣本數量的比值。計算公式如下:

通過哪些指標來評價一個分類模型的性能

對於類標數量不均衡的分類問題來說,真正率(TPR)與假正率(FPR)也是非常有用的性能指標。真正率表示預測與實際都為正類別的樣本數量與實際正樣本數量的比值,假正率表示預測為正類別實際為負類別的樣本數量與實際負類別的樣本數量的比值。計算公式如下:

通過哪些指標來評價一個分類模型的性能

在對腫瘤分類模型分析中,主要關注的是正確的檢測出惡性腫瘤的病人(即真正率),這樣能夠使得病人即使的得到救治。降低良性腫瘤被錯誤預測為惡性腫瘤(假正率)的數量固然重要,其實對病人影響不大。與假正率相反的真正率樣本中,包含了有關正確識別出來惡性腫瘤樣本的信息。

準確率(precision,PRE)和召回率(recall,REC)與真正率和真負率相關的性能評價指標,召回率和真正率的含義相同,計算公式如下

通過哪些指標來評價一個分類模型的性能

除了準確率和召回率,還有F1分數,是利用準確率和召回率的組合的一種性能評價指標

通過哪些指標來評價一個分類模型的性能

通過sklearn來計算準確率、召回率和F1分數

通過哪些指標來評價一個分類模型的性能

注意:在sklearn中將正類類標標識為1,。如果,需要指定一個不同的正類標,我們可以通過make_scorer函數來構建一個評分函數,通過設置GridSearchCV中的scoring參數,設置為我們構造的評分函數。

三、繪製ROC曲線

受試者工作特徵曲線(receiver operator characteristic,ROC)是基於模型的假正率和真正率等性能指標進行分類模型選擇的有用工具,假正率和真正率可以移動分類器的分類閾值來計算。ROC曲線的對角線表示的是隨機猜測,比如說某件事情發生或者不發生,那麼我們隨機猜中的概率為0.5。如果ROC曲線在對角線下,就表示分類器的性能比隨機猜測還差。最好的分類器,其真正率是1,假正率是0,對應的ROC曲線是一條橫軸為0與縱軸為1組成的折線。ROC曲線下的區域(area under the curve,AUC),用來表示分類模型的性能。

通過哪些指標來評價一個分類模型的性能

通過哪些指標來評價一個分類模型的性能

計算ROC在AUC上的得分,也就是ROC下的面積

通過哪些指標來評價一個分類模型的性能

四、多分類的評價標準

在多分類系統中,常用的性能指標有宏(macro)均值和微(micro)均值,以k類分類系統中的準確率為例,計算公式如下:

通過哪些指標來評價一個分類模型的性能

當我們同等看待每個實例或每次預測的時候,微均值是有用的,當我們同等看待每個類別的時候,宏均值是有效的。如果,樣本中的類別是不均衡的,在計算宏均值的時候,需要以各類別中樣本的數量作為評分的權值。


分享到:


相關文章: