@SofaSofa TeamM
关于那个autoencoder的教程,我们得到了MAE,MSE,以及原标签
然后画ROC_AUC.
# 画出ROC曲线
官方ROC-curve文档说的是,
这个mse是不是就是这个决策的非阈值测量?(预测概率是0-1的小数,mse应该是无界的吧?)
还有关于怎么修改分类的阈值,这个阈值返回一串子,是什么东西
3个回答
你可以把还原误差想象为“概率”的。如果你用predict_proba得到一串概率,那你的截断点在哪儿?
如果你把每个可行的截断点都试一遍,是不是就得到了很多precision和recall,连起来不就是precession-recall的曲线嘛
同理,你也可以得到很多的FPR和TPR,连起来就是ROC曲线了
对于概率,你知道你的截断点是0.5,但是往往你也可以自己设置一个截断点。这里是还原误差,你可以设置数值,也可以设置为X百分位点,默认其中百分之X都是异常。
SofaSofa数据科学社区DS面试题库 DS面经
0-1,设置大于0.5概率。但还原误差 并不是一个概率分布,只是一个差值,一个离散程度,可以小于1,大于1。如实例中,本身有标签,可以去逼近去选择截断点的还原误差值。那么真实的无监督,怎么判断这个截断点是多少
-
陈十一
2018-10-10 14:15
在真实情况下,这个截断点的选择要么是根据前提信息(prior info),要么是根据真实的异常值在roc曲线或者pr曲线上选择截断点的。
这一点是和稀疏情况下的二元分类问题类似的,在非平衡状态下,一般不会用0.5作为阈值点,而是根据业务需求来选择截断点。即使是平衡的二元分类问题,有时也会选择其他阈值,而非总是固定在0.5。
总体上来说,这是precision和recall的trade-off,或者是TPR和FPR的trade-off。取决于整个商业决策是保守还是激进等因素。
SofaSofa数据科学社区DS面试题库 DS面经