我有4个变量:
变量1:是取值0到1之间的实数
变量2:是取值0到100000之间的数
变量3:是categorical variable,有6个不同的取值
变量4:也是categorical variable,有3个不同取值,但是它们之间是有排序关系,类似于“微弱”,“中等”,“强烈”
在回归之前我需要对这些变量做哪些处理呢?
1个回答
可以先对变量1,2进行标准化(常见标准化方法)
变量3是分类变量,六个不同取值,所以需要编码成5列变量
变量4其实就是1,2,3整数变量,可以采用对变量1,2一样的方法进行标准化。
SofaSofa数据科学社区DS面试题库 DS面经