二值化和Onehot表示的特征哪一个较好?

  统计/机器学习 数据预处理    浏览次数:2140        分享
0

比如說有一個binary的特征表示性別,可以将其二值化成0及1,或one hot为向量[0, 1]及[1, 0],分別表示成男及女。 哪一个较好或更常用? 

 

blazehaze   2020-01-29 03:52



   1个回答 
1

肯定是直接将男女表示为0或1更好啊

因为性别本身就是binary的,所以没必要进行one-hot。one-hot之后的数据是有冗余的,因为你可以根据[0,1]推出[1,0]。

SofaSofa数据科学社区DS面试题库 DS面经

xiaosu   2020-01-29 12:09



  相关讨论

怎么对特征做标准化使得数值都是正数?

数据白化是什么意思?

dummy variable是n个还是n-1个

机器学习中的过采样和欠采样是什么意思?

机器学习中的维度灾难怎么防止和克服?

什么时候需要对y或者特征进行对数变换?

在数据预处理阶段,特征的标准化有哪些方法?

分类特征的目标编码是什么意思?

z-score标准化不适用于处理什么样的数据?

怎么求一个数组的移动平均数

  随便看看

如何重命名pandas的dataframe的列名

K-means怎么选K?

python里怎么表示科学计数法?

对连续特征一定要进行分箱处理吗?

线性可分是什么意思?