对连续的数值特征一定要进行分箱处理吗?如果是用xgboost,是不是就不用分箱了?
4个回答
分算法,树里面c4.5和cart有自己的方法进行连续型特征的处理,不需要分箱,但是在信用评分卡中就需要分箱,不仅对连续特征要分箱,比如年龄,年收入,对于多值的分类数据也需要分类,比如车品牌,很多的大众品牌车辆,还有几辆跑车类别,那就需要进行分类变量的再分箱
SofaSofa数据科学社区DS面试题库 DS面经对于线性模型来说,如果特征和y不是线性的关系的话,我们会人为地对特征进行离散化,也就是分箱处理。
但是分箱也有坏处,毕竟它丢失了一部分信息,而且在独热处理后又增加了特征的个数。所以整体上来说,是降低了bias,增大了variance。
对于xgb这种树一类的模型,可以不用分箱。
SofaSofa数据科学社区DS面试题库 DS面经