一般说来数据的维数太大,会有所谓的维数灾难。
如果数据集的维数(列数)远远大于样本数(行数),有什么好的解决办法吗?
3个回答
是的,dimensionality curse就是说的这类问题,特征比样本多,p >> n。
这个问题是统计机器学习中的经典问题,也就是降维问题。
你可以使用AIC或BIC来筛选特征。
也可以使用一些正则化模型,比如LASSO来进行降维。
如果使用随机森林或者gbdt的话,即使维数多于样本数,也不会是大问题,而且你可以利用模型返回特征的importance来进行特征选择,起到降维的作用。
SofaSofa数据科学社区DS面试题库 DS面经