机器学习和推荐系统中的评测指标—(1)准确率(Accuracy);(2)错误率(Error rate)(3)精确率、精度(Precision);(4)召回率(Recall);(5)灵敏度/敏感性(sensitive);(6)特效度/特异性(specificity);(7)F值(F-Measure)简介/综合评价指标(F-Measure);(8)计算速度;(9)鲁棒性;(10)可扩展性;(11)可解释性;(12)ROC曲线(Receiver Operating Characteristic);(13)PR曲线(Precision-Recall曲线);(14)AUC(Area UnderCharacteristic)。
在介绍以上指标时先引入几个概念:(必须先了解“混淆矩阵”)(正确和错误是True和False表示预测结果是否正确,T表示不管是在预测为P还是N的结果中预测正确的情况)(正负是positive和Negative表示预测的结果,就是样本被预测为P还是N)
True Positive(TP:真正):在判定为positive(正)的样本中,判断正确的数目(真实情况为正例,预测情况为正例)---即将真类预测为正类数。(就是在将测试样本判定为Positive的预测结果样本中,有多少个True就是预测正确的数目)(统计在Positive预测结果中,预测正确True的数目)
False Positive(FP:假正):在判定为positive(正)的样本中,判断错误的数目(真实情况为反例,预测情况为正例)---即将假类预测为正类数(误报)。(就是在将测试样本判定为Positive的结果样本中,有多少个False就是预测错误的数目))(统计在Positive预测结果中,预测错误False的数目)
True Negative(TN:真负):在判定为Negative的样本中,判断正确的数目((真实情况为反例,预测情况为反例))---即将真类预测为负类数。(就是在将测试样本判断为Negative的结果样本中,有多少个True就是预测正确的数目)(统计在Negative预测结果中,预测正确True的数目)
False Negative(FN:假负):在判定为Negative的样本中,判断错误的数目(真实情况为正例,预测情况为反例)---即将假类预测为负类数。(就是在将测试样本判断为Negative的结果样本中,有多少个False就是预测错误的数目,即将真的也预测为Negative了,就是预测错误了,要统计将真的预测为Negative的数目)(统计在Negative预测结果中,预测错False的数目)
PositiveNegativeTrueTPTNFalseFPFN实际类别和预测类别:
预测类别Yes/P/正例No/N/负例总计
实
际
类
别
Yes/T/预测正确TPFNP(本来实际为Yes)No/F/预测错误FPTNN(本来实际为No)总计(被分为Yes)(所有的实际是Y/N被预测为P的数目)(所有的实际为Y/N的被预测为N的数目)P+N(1)准确率(Accuracy)计算公式A:(被分对的样本除以所有的样本数)
(准确率就是预测正确的(TP、TN)除以所有的结果)(T表示在P和N的预测结果中预测正确)
正确率越高,分类器越好。
(2)错误率(Error rate)计算公式:(错误率与准确率相反,描述被分类器错分的比例)
分对与分错是互斥事件,所以accuracy=1-error rate
(3)精确率、精度(Precision)计算公式:
表示被分为正例(positive)的示例中实际为正例的比例。
(精确率和召回率是相互影响的,理想情况下两者都高,但是一般情况下准确率高,召回率就低;召回率高,精确率就低;如果两者都低应该是哪里算的有问题)
(4)召回率(Recall)计算公式R:
召回率是覆盖面的度量,度量有多少个正例被分为正例。(有多少个正例中的正例值的是正确分为正例的个数,被分为正例中的正例包含正确分的和错误分的(错误分的就是正例被分到N中就是N中分错的即FN))
可以看到召回率和灵敏度是一样的。
(5)灵敏度(sensitive)计算公式:(表示所有正例中P被分对的TP比例,衡量了分类器对负例的识别能力)
(6)特效度(specificity)计算公式:(表示所有负例中N被分对的TN比例,衡量了分类器对负例的识别能力)
(7)F值(F-Measure)简介/综合评价指标(F-Measure)(又称为F-Fcore):
P和R有时间会出现矛盾的情况下,在P精确率和R召回率都要求高的情况下,综合衡量P和R就用F值:
F-Measure是Precision和Recall的加权调和平均:
当参数时,就是最常见的F1(F1 score),也即
可知F1综合了P和R的结果,当F1较高时则能说明实验方法比较有效;一般多个模型假设进行比较时,F1 score越高,说明它越好。
(8)计算速度:分类器训练和预测需要的时间。
(9)鲁棒性:处理缺失值和异常值的能力。
(10)可扩展性:处理大数据集的能力。
(11)可解释性:分类器的预测标准的可理解性,像决策树产生的规则就是很容易理解,而神经网络的一堆参数就不好理解,我们只好把它看成一个黑盒子。
(12)ROC曲线(Receiver Operating Characteristic):
ROC曲线是以假正例率(FP_rate(真实值为负例,而预测为正例的比例)和真正例率(TP_rate(真实值是正例,且预测为正例的比例))为轴的曲线,ROC曲线下面的面积我们叫做AUC,一般AUC值越大,说明模型越好。如图所示:(ROC曲线一般横轴是FP_rate,纵轴是TP_rate)
(13)PR曲线(Precision-Recall曲线)
假设N_c>>P_c(即Negative的数量远远大于Positive的数量),若FP很大,即有很多N的sample被预测为P,因为,因此FP_rate的值仍然很小(如果利用ROC曲线则会判断其性能很好,但是实际上其性能并不好),但是如果利用PR,因为Precision综合考虑了TP和FP的值,因此在极度不平衡的数据下(Positive的样本较少),PR曲线可能比ROC曲线更实用。
(14)AUC(Area UnderCharacteristic)
ROC曲线下面积是分类器区分类的能力的度量,用作ROC曲线的总结。AUC越高,模型在区分正类和负类方面的性能越好。
1)当AUC=1时,分类器能够正确区分所有的正类点和负类点。然而,如果AUC为0,那么分类器将预测所有的否定为肯定,所有的肯定为否定。
2)当0.5<AUC<1时,分类器很有可能区分正类值和负类值。这是因为与假反例和假正例相比,分类器能够检测更多的真正例和真反例。
3)当AUC=0.5时,分类器无法区分正类点和负类点。这意味着分类器要么预测所有数据点的随机类,要么预测常量类。
因此,分类器的AUC值越高,其区分正类和负类的能力就越好。
参考连接:http://www.jisuapp.cn/news/8752.html