对进行回归分析之前,如何处理不同类型的变量?

  统计/机器学习 回归分析 数据预处理    浏览次数:6194        分享
0

我有4个变量:

变量1:是取值0到1之间的实数

变量2:是取值0到100000之间的数

变量3:是categorical variable,有6个不同的取值

变量4:也是categorical variable,有3个不同取值,但是它们之间是有排序关系,类似于“微弱”,“中等”,“强烈”


在回归之前我需要对这些变量做哪些处理呢?

 

魏哲   2017-04-17 10:31



   1个回答 
1

可以先对变量1,2进行标准化(常见标准化方法

变量3是分类变量,六个不同取值,所以需要编码成5列变量

变量4其实就是1,2,3整数变量,可以采用对变量1,2一样的方法进行标准化。

SofaSofa数据科学社区DS面试题库 DS面经

雷猴   2017-04-18 08:41



  相关讨论

特征归一化后的多项式回归拟合结果

statsmodels里的ols怎么处理分类变量?

虚拟变量能否标准化?

数据的标准化(Z-score标准化)是否会改变训练得到的超平面系数向量?

线性回归的变量归一化的问题

拟合数据的Z-score规范化怎么进行操作?

特征是否也需要Box Cox变换?

在线性回归模型中存在epoch的说法吗?

怎么理解分位数回归quantile regression的目标函数?

如果迫使一个线性回归模型的截距为0,会有什么坏处吗?

  随便看看

求多个torch tensor的平均值

python怎么对list中的元素做连乘?

如何获取pyspark DataFrame的行数和列数?

python pandas里有没有类似R的summary的函数?

什么是K-Modes(K众数)聚类法?