对于数值型变量模型怎么知道是连续变量还是离散变量?

  统计/机器学习 监督式学习 数据预处理    浏览次数:6597        分享
0

如果对于一个特征有四种可能取值,如所属年级 大学一年级,大学二年级,大学三年级,大学四年级,此时使用LabelEncoding转换为0,1,2,3,如果不进行one-hot编码的话,输入模型后,模型是怎么理解这个特征的?拿树模型(CART)来说的话,是不是自动地就把他当做一个连续性特征进行处理了?但我总觉得这个过程中丢失了部分信息。

突然间有点混乱,关于特征的连续与离散以及预测目标的连续与离散以及one-hot编码将特征维度大量扩大的同时的好处是什么?

谢谢!

 

dzzxjl   2018-04-09 16:06



   2个回答 
2

把年级转为0,1,2,3,在决策树中,这个变量是会被当作连续变量处理。这样的处理并没有很精细化,如果和直接把它们进行one-hot相比。假如大学二年级(“1”)明显的与其他三个不同,决策树只能切出{0,1}和{2,3},而不能做到{0,2,3}和{1}。


SofaSofa数据科学社区DS面试题库 DS面经

Jiho   2018-04-09 21:10

那为什么rf,xg等模型,是不需要独热的, - 陈十一   2018-04-10 09:03
是的,不是必须的。对于决策树来说,也不是必须的。具体是不是one hot,其实影响的是performance。 - Jiho   2018-04-10 10:24
1

网上找到一个答案,对于xgb什么时候适合用onehot提到了:

1.对于类别有序的类别型变量,比如 age 等,当成数值型变量处理可以的。对于非类别有序的类别型变量,推荐 one-hot。但是 one-hot 会增加内存开销以及训练时间开销。

2.类别型变量在范围较小时(tqchen 给出的是[10,100]范围内)推荐使用

仅供参考

SofaSofa数据科学社区DS面试题库 DS面经

dzzxjl   2018-04-13 10:47



  相关讨论

对连续特征一定要进行分箱处理吗?

输入变量可以是离散型数据和连续性数据的组合吗?

数据一样,y却不一样的样本该怎么处理?

离散变量和连续变量可以一起放入机器学习的分类器中吗?

数据量太少能不能bootstrap

机器学习中如何将几种度量距离的量进行线性组合

z-score标准化不适用于处理什么样的数据?

分类特征的目标编码是什么意思?

怎么对特征做标准化使得数值都是正数?

二值化和Onehot表示的特征哪一个较好?

  随便看看

推荐系统里的ALS是什么意思?

怎么理解图像识别里的dice系数?

seaborn.distplot直方图的y轴的数值是什么意思?

sklearn里的LabelEncoder什么用?

非方阵的逆是什么