样本权重大小不同时,用什么分类算法比较合适?

  统计/机器学习 监督式学习 开放问题    浏览次数:1132        分享
1

样本权重大小不同时,用什么分类算法比较合适,是用随机森林,还是逻辑斯蒂回归,还是深度学习呢?有没有什么特定的算法是处理样本权重不同的情况的?

 

s3ami   2022-04-19 23:21



   1个回答 
4

我一般直接在loss function里加样本权重就可以了,不会特意去选择不同的模型。sklearn的算法一般也都支持配置sample_weights。


比如考虑样本权重$\beta_p$后的logloss,是这样的

$$g\left(\mathbf{w}\right) = \sum_{p=1}^P\beta_p\,\text{log}\left(1 + e^{-y_p\text{model}\left(x_p,\mathbf{w}\right)}\right)$$

神经网络、xgboost之类的也可以设置每个样本的权重,权重不同,最后也会直接影响到模型的结果。下图就是每个样本权重不同(点的大小代表权重)的情况下,分类器的决策边界也可能会发生改变。



SofaSofa数据科学社区DS面试题库 DS面经

abuu   2022-05-14 23:13



  相关讨论

为什么bias-variance一定会trade off?

哪些机器学习分类模型适用于小数据?

有没有可以自动请求特征取值的模型,最终实现分类?

Probit model和Logit model的区别是什么?

如何理解PAC Learning?

机器学习提到的MVP是什么意思?

推荐开放数据库

bias-variance tradeoff是什么意思?

机器学习算法中有哪些用到了贪婪算法的思想?

baseline模型和benchmark模型的差别?

  随便看看

lightgbm.LGBMModel和lightgbm.LGBMClassifier该用哪个?

线性回归是机器学习算法吗?

随机梯度下降(sgd)的收敛问题

回归中自变量和因变量的相关系数和回归系数(斜率)有什么关系?

sklearn中的predict_proba方法的返回值的意义