全部问题问题热门未解答所有标签标签收藏收藏我要提问

在使用PCA降维时，有哪些坑？

统计/机器学习监督式学习无监督学习数据降维开放问题浏览次数：12706 分享

二维码

手机扫描二维码

机器学习面试也能刷题？

我有一个分类问题，列数很多，我试了下PCA降维，然后再训练分类器，可是结果反而差了不少。

不知道有没有人遇到过类似的情况，或者是我不小心踩进了PCA的坑？

大神们可以分享下PCA的坑吗？或者成功使用PCA的经验吗？

TheTheThe 2017-09-22 14:41

6个回答

除了各位说的，我再补充一些我所认为的坑

PCA依赖于线性假设。

我们知道PCA本质上就是SVD，所以PCA不过是利用线性投影进行降维。但是数据的内在结构未必是简单的线性关系。

PCA是正交的。

正如第一点所说，PCA是正交的投影，可是未必正交的就是最好的。想象一下，姚明和郭敬明（两个三维物体），我们用灯去照他们的影子，当灯光从两人正上方10米向下照的时候，两个人影子都是一坨圆；如果我们从侧面照他们，投影出来的两个影子，可能宽度差不多，长度却差不少，这样的影子（三维降到二维）就含有更多信息。

PCA让方差尽量大。

PCA本质上就是抓住主体，放过细枝末节。但有时候细枝末节往往是很重要的。五个韩国姑娘，其中一个姑娘鼻子上有痣，于是你一眼就认出了。你对她们的照片做PCA，之后发现，大家的脸型五官都没变，但是那个痣却找不到了，那你还能认出那个姑娘吗？你的算法还能认出那个姑娘吗？

PCA的可解释性

如果PCA之后需要使用线性模型，那么这个线性模型大概率也是不可解释的。因为PCA本身是特征重组压缩，原本的变量的意义会消失。

SofaSofa数据科学社区 DS面试题库 DS面经

木子周 2017-10-11 09:50

PCA是个差强人意的照妖镜 - batmanX 2017-10-11 10:55

PCA对于数据的scale也是很敏感的，所以通常会先做标准化；另外如果有outlier的话，PCA的效果也要大打折扣。 - 神算子 2022-05-09 23:52

一定要记得先做标准化。参考这个。

SofaSofa数据科学社区 DS面试题库 DS面经

abuu 2017-09-24 13:14

我也说个我的。我之前是把training set的特征和test set的特征和一起做了PCA降维。

其实这是大错特错的，因为在PCA中用test set的特征，这属于信息泄露。

正确的方法是在training set上fit_transform，在test set上transform。

SofaSofa数据科学社区 DS面试题库 DS面经

道画师 2017-09-26 01:58

降维不能降太多，不然丢失了太多信息，反而不利于预测

SofaSofa数据科学社区 DS面试题库 DS面经

雷猴 2017-09-23 09:48

PCA降为前需要把相关性高的那些列去掉，不然会影响到PCA的效果。

SofaSofa数据科学社区 DS面试题库 DS面经

清风 2017-09-27 09:43

说明你的样本量不够大。

为什么你要PCA降维？因为你的数据样本大到上千万行几十列，必须用hadoop进行算法计算，而你只有一台1万的台式机，你需要做一定的数据信息舍弃，放弃精准度，得到一个95%或者90%近似正确的结果。

PCA降维的核心理念是，抓住核心部分，放弃一些有影响力但是却不那么重要的列，以此减少算法的计算复杂度。

如果你PCA降维后反而效果更差了，说明你的样本量（行数）不够大，放弃的那些列对结果有“较大”的影响。

所以，别人扛着三百斤的大石头（大数据），为了方便，造了一辆马车（PCA降维）。不代表，你扛着三斤的石头（你的数据集），也需要一辆马车（PCA降维）。在现实的情况中，如果BAT是三百斤的大石头，可能你扛的只是0.00003斤的石头，放口袋里就可以了，不需要马车。

每个数据集都是不一样的烟火，抛开了数据集属性谈算法，都是耍流氓。

SofaSofa数据科学社区 DS面试题库 DS面经

天晴 2017-12-25 18:04

相关讨论

tsne被忽视？tsne有什么缺点？

为什么PCA被称作非监督式学习？

kNN算法有哪些缺点？

主成分分析法(PCA)算是黑盒算法吗？

PCA算法是一种保距算法吗？

PCA降维中的特征值和特征向量

一个关于PCA与eigenvector的问题

决策树有哪些缺点？

用pca对数据集降维时为什么一定要训练集和测试集？

Truncated SVD和PCA有什么区别吗？

随便看看

返回DataFrame或者array的行数

python直方图y轴显示占比，而不是绝对数值

pandas把一列日期转换为星期

怎么在matplotlib.pyplot的plot上加上文字？

python里的<<或者>>符号是什么意思？