非平衡分类任务中weighted log loss

  统计/机器学习 监督式学习 模型验证 损失函数    浏览次数:6464        分享
0

对于相对平衡的二元分类,我们一般用log loss

非平衡的二元分类有weighted log loss,但细节不大了解

weighted log loss具体是怎么weighted的,定义是怎么样的


 

ljljlj   2018-03-28 22:19



   1个回答 
3

正常的log loss

$$\text{logloss}=-\frac{1}{n}\sum_{i=1}^n\left(y_i\log(p_i)+(1-y_1)\log(1-p_i)\right)$$

$y_i$是真实值,0或者1;$p_i$是预测出的为1的概率。

加权重$r$,就是考虑到0和1的真实比例。weighted log loss可以写成

$$\text{logloss}_w=-\frac{1}{n}\sum_{i=1}^n\left(ry_i\log(p_i)+(1-r)(1-y_i)\log(1-p_i)\right)$$

如果0标签样本较少,你想给它们加权重,那就可以让$r$取一个小于0.5的数值。

还有一个比较直接的设置方法是让$r$是全部样本中是0的比例,比如100个样本,0有10个,那么$r=0.1$。


SofaSofa数据科学社区DS面试题库 DS面经

mrhust   2018-04-17 22:36



  相关讨论

多分类问题有没有类似LogLoss的模型评判标准?

MSE问题

关于损失函数h(x), J(x), cost的概念问题

怎么理解surrogate loss function代理损失函数?

二元分类为什么不能用MSE做为损失函数?

logloss的取值范围是多少?一般好的分类器能达到多少?

Hamming Loss汉明损失的计算公式是什么?

python求logloss

向量梯度下降优化的最佳步长?

hinge loss的公式是什么?

  随便看看

去掉pandas DataFrame的index的名字

python直方图y轴显示占比,而不是绝对数值

推荐系统中的召回(recall)是什么意思?

软聚类,硬聚类?

怎么理解surrogate loss function代理损失函数?