对连续特征一定要进行分箱处理吗?

  统计/机器学习 监督式学习 数据预处理    浏览次数:8450        分享
0

对连续的数值特征一定要进行分箱处理吗?如果是用xgboost,是不是就不用分箱了?

 

zzzz   2019-07-13 16:33



   4个回答 
3

是的,树模型不用进行分箱,但线性模型不分箱会导致倾斜

SofaSofa数据科学社区DS面试题库 DS面经

cabbage   2019-07-15 13:05

2

其实对xgboosting,分箱有时候也有助于防止过拟合

SofaSofa数据科学社区DS面试题库 DS面经

我小宋   2019-11-19 09:22

2

分算法,树里面c4.5和cart有自己的方法进行连续型特征的处理,不需要分箱,但是在信用评分卡中就需要分箱,不仅对连续特征要分箱,比如年龄,年收入,对于多值的分类数据也需要分类,比如车品牌,很多的大众品牌车辆,还有几辆跑车类别,那就需要进行分类变量的再分箱

SofaSofa数据科学社区DS面试题库 DS面经

作业没写做么办   2020-03-18 16:31

1

对于线性模型来说,如果特征和y不是线性的关系的话,我们会人为地对特征进行离散化,也就是分箱处理。

但是分箱也有坏处,毕竟它丢失了一部分信息,而且在独热处理后又增加了特征的个数。所以整体上来说,是降低了bias,增大了variance。

对于xgb这种树一类的模型,可以不用分箱。

SofaSofa数据科学社区DS面试题库 DS面经

Josh_Josh   2019-07-16 07:15



  相关讨论

数据一样,y却不一样的样本该怎么处理?

离散变量和连续变量可以一起放入机器学习的分类器中吗?

对于数值型变量模型怎么知道是连续变量还是离散变量?

数据量太少能不能bootstrap

输入变量可以是离散型数据和连续性数据的组合吗?

机器学习中如何将几种度量距离的量进行线性组合

数据白化是什么意思?

机器学习中的过采样和欠采样是什么意思?

怎么对特征做标准化使得数值都是正数?

dummy variable是n个还是n-1个

  随便看看

推荐系统中的召回(recall)是什么意思?

pandas把一列日期转换为星期

numpy里生成单位矩阵?

python里怎么求一个矩阵的秩?

激活函数RELU在0点的导数是多少?