dummy variable是n个还是n-1个

  统计/机器学习 数据预处理    浏览次数:5028        分享
0

对categorical的变量做dummy variable,也就是one hot encoding,比如这个变量有n个category,那么最后encode得到的是n个binary variable还是n-1个呢?从模型表现上说,两者有差异吗?

 

robertt   2018-07-19 13:32



   3个回答 
2

应该是n-1个。如果是n个的话,就会有一个dummy variable是冗余的,因为它可以被其他n-1个表示出来。

对于线性模型来说,冗余的dummy variable会增加变量的多重共线性。


SofaSofa数据科学社区DS面试题库 DS面经

Josh_Josh   2018-07-24 22:12

1

如果是用random forests,并且非常在乎feature importance的话,可能用n个dummy variable比较好,不然的话就缺少一个variable的importance。

毕竟多重共线性对random forests影响不大

SofaSofa数据科学社区DS面试题库 DS面经

数据痴汉   2018-08-05 23:32

1

“对categorical的变量做dummy variable,也就是one hot encoding”。

------

这句话其实不大准确,one hot encoding和做dummy variable不大等价。它们的区别其实也就是你提的问题。

如果一个分类变量有n类,那么做dummy variable的话,你得到的是n-1个二元变量;如果做one hot的话,你得到的是n个二元变量。

one hot encoding会有冗余的变量。

SofaSofa数据科学社区DS面试题库 DS面经

东布东   2019-02-27 08:29



  相关讨论

机器学习中的维度灾难怎么防止和克服?

什么时候需要对y或者特征进行对数变换?

分类特征的目标编码是什么意思?

怎么对特征做标准化使得数值都是正数?

二值化和Onehot表示的特征哪一个较好?

z-score标准化不适用于处理什么样的数据?

在数据预处理阶段,特征的标准化有哪些方法?

机器学习中的过采样和欠采样是什么意思?

数据白化是什么意思?

python中怎么把千位分隔符以及货币符号去掉转成数值形式?

  随便看看

线性回归或者逻辑回归中常提到的AIC和BIC是什么意思?

python直方图y轴显示占比,而不是绝对数值

点击率的95%置信区间该怎么算?

为什么神经网络模型不用交叉验证?

牛顿法到底是一阶优化算法还是二阶优化算法?