为什么非平衡的数据更适合用精度-召回曲线,而不是roc auc?
在非平衡的数据集上,精度-召回曲线的优势体现在哪儿呢?
2个回答
先说结论:我觉得楼主问题中有个误解。用precision-recall的主要理由不是因为正负样本个数悬殊,而是因为应用更关心正样本的分类结果。
非平衡的数据一般来至于正样本明显小于负样本,且更关心正样本分类结果的应用。比如信用卡诈骗中,诈骗的交易数远小于正常交易数,并且主要关心是否能找出欺诈交易及其效率。
ROC里看TPR和FPR,精度-召回曲线看Precision 和recall,其中TPR=recall。那我们主要是比较FPR 和Precision。
TPR (True Positive Rate) =Recall = TP / (TP+FN)
FPR (False Positive Rate) = FP / (FP+TN)
Precision = TP/(TP+FP)
以上三个指标(metric)都是$x/(x+y)$的形式,对分子$x$更敏感。也就是说TPR(Recall)只和正样本相关,FPR是只和负样本相关,Precision是偏向正样本的指标。所以precision-recall更适合于关心正样本的应用。ROC适合对正负分类结果都关心的应用。
假如有个应用是正样本个数远远小于负样本个数,且对正负样本的结果都关心。TP<<FP,所以precision接近于0,很难用precision去评价分类器好坏;而FP和TN可比,0<FPR<1。反而此时应该用ROC而不用precision-recall。
参考这里。
SofaSofa数据科学社区DS面试题库 DS面经题主有兴趣可以看看这篇被引用了两千多次的论文:The Relationship Between Precision-Recall and ROC Curves.
论文里的一个关键句子是“when dealing with highly skewed datasets, Precision-Recall (PR) curves give a more informative picture of an algorithm’s performance.”
SofaSofa数据科学社区DS面试题库 DS面经