我是吧数据做相关,
选择相关系数0.5以上的 ,大概10多个变量
训练出来的分数都是0.6附近
测试的分时也是在0.6附件,
不知道还是否需要在10多个变量里排列组合 进一步提高分时吗
需要加入一些相关系数低的变量吗
2个回答
选择变量的方法很多啊,比如用lasso,random forests或者向前选择法
Lasso: 考虑到特征之间相关性,只选出一些比较重要的特征,其他特征的系数为0
Random forest:会生成每个特征的重要性,你可以选择重要性高的特征保留在模型里
向前选择:就是一开始没有变量,每次增加一个最优变量,直到模型的表现不再提高为止
SofaSofa数据科学社区DS面试题库 DS面经
回答已更新
-
maxroot
2019-06-09 19:45
谢谢
-
constant007
2019-06-10 11:05