特征是否也需要Box Cox变换?

  统计/机器学习 概率分布 回归分析 数据预处理    浏览次数:2667        分享
1

Box Cox一般用于改善因变量的分布,使残差满足独立性和正态性,提高线性模型的性能。

但是我在kaggle的notebook中,看到一些大神也会对偏态分布的特征进行box cox变换,但我想不明白其中的意义。
看相关文章,大多都是围绕对因变量做变换,没有涉及对特征的box-cox变换的讲解。我调试了一下,发现对特征进行变换,性能甚至略微下降。

所以非常好奇这一点,是否有必要对偏态特征也进行box cox变换?如果是,其中的原理是什么?

希望各位大神们赐教,感激不尽!!!

 

努力成为数据大湿   2020-04-30 21:22



   1个回答 
4

对特征进行变换,也就是所谓的特征工程,是比较复杂的,没有一统天下的理论,都是根据实战得到的。

对于决策树,随机森林,boosting,这类跟树相关的模型,对特征做box cox,对最后的结果基本不会有影响。

对于线性模型来说,我们需要满足特征与目标成线性关系的假设。有时候只调整y的分布,未必能够满足所有的特征,所以有时候也对x进行调整。

还有一种情况是在做pca降维的时候,可以先对特征做一次预处理,把特征转成类似正态,对pca的稳定性也是有帮助的。

SofaSofa数据科学社区DS面试题库 DS面经

strong.man   2020-05-02 14:45

非常感谢您的解答,受教了!! - 努力成为数据大湿   2020-05-03 21:28
我附议!!!树模型对变量的大小不敏感,对其分布还是敏感的,它是根据信息增益寻找最佳节点分裂(分类树),希望能解答一下? - Cypher   2020-12-24 18:12
应该也不敏感吧,和变量的数值分布无关,只和变量数据里的大小顺序相关 - strong.man   2021-01-02 15:50


  相关讨论

因变量不是正态分布后取了对数之后还是不正态分布该怎么办?

python中实现box-cox变换的函数?

对进行回归分析之前,如何处理不同类型的变量?

特征归一化后的多项式回归拟合结果

statsmodels里的ols怎么处理分类变量?

两个独立的正态随机变量的乘积服从什么分布?

二项分布的正态近似

怎么判断一个数据集是双峰分布的?

均匀分布的上限的最大似然估计

odds和odds ratio的定义是什么?

  随便看看

Resnet-18, Resnet-50, Resnet-101这些模型里的数字是什么意思?

matplotlib一个画板上多个图叠加,如何决定图层上下?

线性回归需要满足哪些基本前提假设

为什么自然常数e等于阶乘的倒数的和?

sklearn里的LabelEncoder什么用?