03.28 通过哪些指标来评价一个分类模型的性能

当一个模型构建完成之后,我们可以通过几个不同的性能指标来衡量分类模型的相关性能,常用的分类性能指标有准确率(precision)、召回率(recall)和F1分数(F1-score)。

通过哪些指标来评价一个分类模型的性能

一、混淆矩阵

混淆矩阵(confusion matrix):是展示分类学习算法的一种性能矩阵(方阵),包括分类器预测结果真正(true positive)、真负(true negative)、假正(false positive)、假负(false negative)的数量,如下图:

通过哪些指标来评价一个分类模型的性能

真正:实际是正类别,预测也是正类别

假负:实际是正类别,预测成了负类别

真负:实际是负类别,预测也是负类别

假正:实际是负类别,预测成了正类别

通过sklearn的confusion_matrix函数和matplotlib来实现混淆矩阵的绘制

通过哪些指标来评价一个分类模型的性能

通过哪些指标来评价一个分类模型的性能

其中,1为正类别(恶性),0为负类别(良性)。通过混淆矩阵可以发现,模型正确的预测了71个负类别和39个正类别,其中将1个负类别错误的预测为了正类别,将3个正类别错误的预测为了负类别。

二、模型的准确率和召回率

预测误差(error,ERR)和准确率(accuracy,ACC)都表示了误分类样本数量的相关信息,其中ERR=1-ACC。预测误差,为预测错误样本的数量与所有样本数量的比值。准确率,为预测正确样本的数量与所有样本数量的比值。计算公式如下:

通过哪些指标来评价一个分类模型的性能

对于类标数量不均衡的分类问题来说,真正率(TPR)与假正率(FPR)也是非常有用的性能指标。真正率表示预测与实际都为正类别的样本数量与实际正样本数量的比值,假正率表示预测为正类别实际为负类别的样本数量与实际负类别的样本数量的比值。计算公式如下:

通过哪些指标来评价一个分类模型的性能

在对肿瘤分类模型分析中,主要关注的是正确的检测出恶性肿瘤的病人(即真正率),这样能够使得病人即使的得到救治。降低良性肿瘤被错误预测为恶性肿瘤(假正率)的数量固然重要,其实对病人影响不大。与假正率相反的真正率样本中,包含了有关正确识别出来恶性肿瘤样本的信息。

准确率(precision,PRE)和召回率(recall,REC)与真正率和真负率相关的性能评价指标,召回率和真正率的含义相同,计算公式如下

通过哪些指标来评价一个分类模型的性能

除了准确率和召回率,还有F1分数,是利用准确率和召回率的组合的一种性能评价指标

通过哪些指标来评价一个分类模型的性能

通过sklearn来计算准确率、召回率和F1分数

通过哪些指标来评价一个分类模型的性能

注意:在sklearn中将正类类标标识为1,。如果,需要指定一个不同的正类标,我们可以通过make_scorer函数来构建一个评分函数,通过设置GridSearchCV中的scoring参数,设置为我们构造的评分函数。

三、绘制ROC曲线

受试者工作特征曲线(receiver operator characteristic,ROC)是基于模型的假正率和真正率等性能指标进行分类模型选择的有用工具,假正率和真正率可以移动分类器的分类阈值来计算。ROC曲线的对角线表示的是随机猜测,比如说某件事情发生或者不发生,那么我们随机猜中的概率为0.5。如果ROC曲线在对角线下,就表示分类器的性能比随机猜测还差。最好的分类器,其真正率是1,假正率是0,对应的ROC曲线是一条横轴为0与纵轴为1组成的折线。ROC曲线下的区域(area under the curve,AUC),用来表示分类模型的性能。

通过哪些指标来评价一个分类模型的性能

通过哪些指标来评价一个分类模型的性能

计算ROC在AUC上的得分,也就是ROC下的面积

通过哪些指标来评价一个分类模型的性能

四、多分类的评价标准

在多分类系统中,常用的性能指标有宏(macro)均值和微(micro)均值,以k类分类系统中的准确率为例,计算公式如下:

通过哪些指标来评价一个分类模型的性能

当我们同等看待每个实例或每次预测的时候,微均值是有用的,当我们同等看待每个类别的时候,宏均值是有效的。如果,样本中的类别是不均衡的,在计算宏均值的时候,需要以各类别中样本的数量作为评分的权值。


分享到:


相關文章: