我印象中KS值(Kolmogorov-Smirnov)是用来判断两个连续分布的相似度的,那怎么用KS值来评价二元分类器?
1个回答
是的,你说的没错,KS是用来判断两个连续分布的。
所以我们用KS来比较二元分类模型的时候,我们用的是模型的概率输出。类似于auc一下,我们不能直接用预测标签,而是用预测的概率。这样我们就有了两组连续数值:一组是真实值为+的预测概率值,一组是真实值为-的预测概率值,然后对两组预测值分别画出cdf,两个cdf的最大距离就是KS-score。
如果模型预测出来的结果完全线性可分,那么KS-score就是1。
上图的例子里,蓝色曲线是真实标签$y=0$的预测样本的输出概率的CDF,绿色曲线是真实标签$y=1$的预测样本的输出概率的CDF,红色是它们距离最远的点,这个距离就是这个分类模型的KS score。
SofaSofa数据科学社区DS面试题库 DS面经
原来如此啊,学习了
-
eternal
2022-04-02 00:12