做多元线性回归的时候,特征很多,有的甚至对模型精度提升是副作用,怎么快速筛选出这些特征,并且排除掉这些没有用的特征?
1个回答
快速排除的话,有几个方法:
1)可以考虑单因子模型,单因子预测效果最差的特征可以排除。
2)看特征的缺失值占比,缺失值占比过高的,可以直接剔除
3)看特征方差,特征是常数或者接近为常数的,可以直接剔除
4)做LASSO,被LASSO剔除的变量可以不考虑
5)重复的特征,比如两个特征几乎一样,也可以直接剔除
如果复杂一点、精确一点的话,可以做逐步特征选择(向前或者向后),AIC、BIC,feature importance,VIF方法等等,做交叉验证来看哪些特征需要剔除掉。