机器学习中的维度灾难怎么防止和克服?

  统计/机器学习 数据预处理    浏览次数:2964        分享
1

机器学习中的维度灾难怎么防止和克服?

 

ysz_2020   2020-03-12 20:59



   1个回答 
3

如果n是样本数量,p是数据的维度,当p非常大,或者p远大于n的时候,数据建模问题会变得非常棘手,这个现象就叫做维度灾难(curse of dimensionality)。

总之我们就是要防止p太大了。p在两种情况下会太大:

(1)本来p就很大;(2)经过预处理后p变得很大。

对于(1),我们要使用降维的方法来减小p,常见的方法可以参考除了PCA,还有什么降维的方法?

对于(2),我们要对预处理的过程小心谨慎,尽量不要创造出太多冗余的、无用的特征出来,比较容易出问题的是当我们对一个level很多的categorical feature做one-hot处理时,会有很多的稀疏特征产生,这时候容易造成维度灾难,所以要注意取舍和降维。

SofaSofa数据科学社区DS面试题库 DS面经

LiShanfei   2020-09-29 01:39



  相关讨论

分类特征的目标编码是什么意思?

二值化和Onehot表示的特征哪一个较好?

在数据预处理阶段,特征的标准化有哪些方法?

怎么对特征做标准化使得数值都是正数?

数据白化是什么意思?

z-score标准化不适用于处理什么样的数据?

机器学习中的过采样和欠采样是什么意思?

什么时候需要对y或者特征进行对数变换?

dummy variable是n个还是n-1个

一个数据预处理的问题

  随便看看

pandas报错: 'DataFrame' object has no attribute 'unique'

NLP里的OOV是什么意思?

不用洛必达法则证明sin x比上x的极限是1

模型调参时常用到的Grid Search是什么意思?

matplotlib一个画板上多个图叠加,如何决定图层上下?