ROC,auroc, auprc 精准率-召回率曲线下的面积 (AUPRC)

发布时间 2023-10-07 11:09:48作者: emanlee

ROC曲线:接受者操作特征曲线(receiver operating characteristic curve)。
ROC空间将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。
从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上/右下两个区域,在这条线的以上的点代表了一个好的分类结果(胜过随机分类),而在这条线以下的点代表了差的分类结果(劣于随机分类)。
完美的预测是一个在左上角的点,在ROC空间座标 (0,1)点,X=0 代表着没有伪阳性,Y=1 代表着没有伪阴性(所有的阳性都是真阳性);也就是说,不管分类器输出结果是阳性或阴性,都是100%正确。一个随机的预测会得到位于从 (0, 0) 到 (1, 1) 对角线(也叫无识别率线)上的一个点;最直观的随机预测的例子就是抛硬币。

我们希望TP真阳性尽可能大,而FP伪阳性尽可能小,因此曲线越靠近左上角效果越好。

 


链接:

https://blog.csdn.net/didi_ya/article/details/125141195

https://www.cnblogs.com/emanlee/archive/2011/05/29/2062280.html

 

=========================================

auroc,

AUROC(Area Under ROC,ROC曲线下面积)

ROC本质上就是在设定某一阈值之后,计算出该阈值对应的TPR & FPR,便可以绘制出ROC上对应的一个点,当设定若干个阈值之后,便可以连成ROC曲线,因此可以想见,当所采样的阈值越多,ROC Curve越平滑。

 

横轴:FPR(False positive rate,假阳性率)
纵轴:TPR (true positive rage,真阳性率)

 

AUROC(Area Under the Receiver Operating Characteristic curve,接受者操作特征曲线下面积,即ROC曲线下面积)
AUROC通过接受者操作特征曲线(receiver operating characteristic curve)与坐标轴(下边横轴,右侧纵轴)之间的⾯积(上图青色阴影)⼤⼩来反应分类器的性能,其意义在于:
因为是在1x1的方格里求面积,AUROC必在0~1之间。
若随机抽取一个阳性样本和一个阴性样本,分类器正确判断阳性样本的值高于阴性样本之机率。
简单说:AUROC值越大的分类器,正确率越高。
从AUROC判断分类器(预测模型)优劣的标准:
    AUROC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器;
    0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值;
    AUC = 0.5,跟随机猜测一样(例:丢硬币),模型没有预测价值;
    AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测;

其意义可以理解为均匀抽取的随机阳性样本(正样本)排名在均匀抽取的随机阴性样本(负样本)之前的期望。AUROC是⼀个介于0到1之间的数值,当AUROC值越接近于1时,表示分类器可以较好的分类正负样本。
链接:https://blog.csdn.net/didi_ya/article/details/125141195

 

在二分类问题中,我们可以得到一个样本为1的概率值,该概率值是一个0到1之间的数值,同时,我们也可以设定一个阈值,当概率值大于阈值时,则认为该样本为正样本,反之,则认为该样本为负样本。

我们可以设置多个阈值,每一个阈值下,都可以得到测试样本的测试结果,以及该阈值下的TPR与FPR,对于一个样本数为N的测试集,我们可以设置N+2个阈值,得到N+2组TPR与FPR值,将TPR作为x轴,FPR作为y轴,便可以将N个点放在坐标系中,将所有的点连接起来,便可以得到ROC曲线。

示例:有2个正样本A与B,其预测为正样本的概率分别为0.4,0.9,有两个负样本C与D,其预测为正样本的概率分别为0.2,0.5。

由于我们有四个样本,所以我们可以设置5个阈值,0,0.2,0.4,0.5,0.9,置信度大于阈值,则视为正样本

当阈值为0时,A,B,C,D 均预测为正样本,此时TPR为2/2 = 1,FPR为2/2 = 1;

当阈值为0.2时,A,B,D预测为正样本,C预测为负样本,TPR为2/2 = 1,FPR为1/2 = 0.5;

当阈值为0.4时,B,D预测为正样本,A,C预测为负样本,TPR为1/2 = 0.5,FPR为1/2 = 0.5;

当阈值为0.5时,B 预测为正样本,A,C,D预测为负样本,TPR为1/2 = 0.5,FPR为0/2 = 0;

当阈值为0.9时,A,B,C,D均预测为负样本,TPR为0/2 = 0,FPR为0/2 = 0;

我们将5组TPR与FPR画在坐标轴,就可以得到ROC曲线了,重复的可以看作一个点。

https://zhidao.baidu.com/question/1997518398384939147.html

=========================================

auprc

AUPR(Area Under PR)

1、什么是PR曲线?

横轴:TPR (true positive rage,真阳性率)
纵轴:Precision 查准率

也分别叫作
(1)查全率:说明你的模型或者方法可以预测出较多的数据
(2)查准率:说明所预测的样本的正确性较高

 

 

REF

https://blog.csdn.net/qm5132/article/details/100167711