样本类别不平衡的评价指标
样本类别不平衡(imbalanced classification)常常是实际分类任务中面临的一个问题。通常情况下,正例(positive samples)的数量比负例(negative samples)的数量要少很多,如欺诈检测、稀有病诊断、故障预测等。这时,传统的分类评价指标如分类准确率(accuracy)、灵敏度(sensitivity)、特异度(specificity)、精确率(precision)、召回率(recall)等评价指标就不再适用。因为分类准确率、灵敏度、特异度等指标都是以正确分类的样本数量为分子,而分母则是所有样本的数量,这会导致对于多数为负例的分类问题得出训练效果很好的假象,而实际上模型并没有对正例样本进行有效的分类与预测。
为了解决样本类别不平衡的问题,可以采用以下评价指标: 1.混淆矩阵(Confusion Matrix)
混淆矩阵是评价分类模型的一种常用工具,其可以直观地展示不同预测正确与错误的情况。混淆矩阵的四个基本分类指标如下:
真正例(True Positive,TP):模型将正例预测为正例的数量。
假正例(False Positive,FP):模型将负例预测为正例的数量。 假反例(False Negative,FN):模型将正例预测为负例的数量。 真反例(True Negative,TN):模型将负例预测为负例的数量。 混淆矩阵可以用于计算其它的评价指标,如分类准确率、灵敏度、特异度、精确率与召回率。
2.分类准确率(Accuracy)
分类准确率是分类模型预测结果正确的样本量占总样本量的比例。当样本类别分布不平衡时,分类准确率将失去其评价分类器性能的作用。当类别不平衡时,分类准确率会被扭曲成负样本的准确率,无法区分对于正例的分类效果。
3.灵敏度(Sensitivity)
灵敏度是评价分类模型对于正例样本分类能力的指标,也称为真正例率(True Positive Rate,TPR)。其公式为:
Sensitivity = TP / ( TP + FN )
灵敏度可以帮助评估模型对于正例的分类效果。当这个指标过低时,模型错过了太多的真实正例,需要考虑使用更复杂的模型或采用扩展分类策略等方法。
4.特异度(Specificity)
特异度是评价分类模型对于负例样本分类能力的指标,也称为真负例率(True Negative Rate,TNR)。其公式为:
Specificity = TN / ( TN + FP )
特异度可以帮助评估模型对于负例的分类效果。当特异度过低时,模型对于负例样本的误判率比较高,需要重新考虑特征选取、样本平衡等问题。
5.精确率(Precision)
精确率是评价分类模型预测结果为正例的正确率。其公式为: Precision = TP / ( TP + FP )
精确率主要考察模型筛选出的正例的准确性,可以帮助评估模型针对正例的分类效果。当精确率过低时,模型在筛选出正例方面存在许多问题,需要增加样本量、降低分类的阈值等方法来优化模型。
6.召回率(Recall)
召回率是评价模型在所有真实正例中有多少被正确预测出来的指标,也称为真正例率(TPR)。其公式为:
Recall = TP / ( TP + FN )
与灵敏度类似,召回率也是评价模型对于正例的分类效果的指标。当召回率过低时,模型对于一部分正例进行了误判或未检测到,需要根据模型的实际情况调整模型参数或采取更加严格的分类策略。
7. F1分数(F1 Score)
F1分数是同时考虑精确率和召回率的一个平衡度量,F1分数越高表示模型在针对样本类别不平衡的问题分类时效果越好。F1分数的公式为:
F1 Score = 2 * Precision * Recall / ( Precision + Recall ) 其中,精确率和召回率都是值域在0-1之间的指标,F1分数是一个综合度量,并且在样本类别不平衡的场景下具有很高的可靠性。
总之,在样本类别不平衡的场景下,如何选择适用的评价指标非常重要。组合使用多种评价指标可以对分类模型的性能进行全面准确的评估,以更好地应对实际任务需求。