Box Cox一般用于改善因变量的分布,使残差满足独立性和正态性,提高线性模型的性能。
但是我在kaggle的notebook中,看到一些大神也会对偏态分布的特征进行box cox变换,但我想不明白其中的意义。
看相关文章,大多都是围绕对因变量做变换,没有涉及对特征的box-cox变换的讲解。我调试了一下,发现对特征进行变换,性能甚至略微下降。
所以非常好奇这一点,是否有必要对偏态特征也进行box cox变换?如果是,其中的原理是什么?
希望各位大神们赐教,感激不尽!!!
1个回答
对特征进行变换,也就是所谓的特征工程,是比较复杂的,没有一统天下的理论,都是根据实战得到的。
对于决策树,随机森林,boosting,这类跟树相关的模型,对特征做box cox,对最后的结果基本不会有影响。
对于线性模型来说,我们需要满足特征与目标成线性关系的假设。有时候只调整y的分布,未必能够满足所有的特征,所以有时候也对x进行调整。
还有一种情况是在做pca降维的时候,可以先对特征做一次预处理,把特征转成类似正态,对pca的稳定性也是有帮助的。
SofaSofa数据科学社区DS面试题库 DS面经
非常感谢您的解答,受教了!!
-
努力成为数据大湿
2020-05-03 21:28
我附议!!!树模型对变量的大小不敏感,对其分布还是敏感的,它是根据信息增益寻找最佳节点分裂(分类树),希望能解答一下?
-
Cypher
2020-12-24 18:12
应该也不敏感吧,和变量的数值分布无关,只和变量数据里的大小顺序相关
-
strong.man
2021-01-02 15:50