unsupervised learning也会over-fitting吗?

  统计/机器学习 无监督学习 模型验证 过拟合    浏览次数:7714        分享
9

我们一般都是回归问题、分类问题经常提到over-fitting,那么unsupervised learning,比如聚类,也会不会出现over-fitting?

 

MrMath   2017-04-05 11:11



   2个回答 
17

会的。和监督式学习一样,是有可能发生过拟合的,当然也有可能会欠拟合。

一个简单的例子是用K-Means做聚类,如果K太小,很可能会发生欠拟合(模型过于笼统)


如果K太大,很可能发生过拟合(模型过于细致)


SofaSofa数据科学社区DS面试题库 DS面经

高代兄   2017-04-08 10:34

9

不光是聚类,其他非监督学习的算法也会出现过拟合。

过拟合的本质就是过分地学习了训练样本中的噪音杂质,从而削弱了泛化能力


比如PCA,如果样本中有一些离谱的噪点,PCA算法的损失函数就会很大程度地被噪点影响。当你把训练出来的PCA作用在新的数据集上的时候,你得到的结果也许就非常离谱,因为你对训练集过拟合了。


同样的问题也会出现在autoencoder上,在某个数据集上训练出一个autoencoder,网络中的权重或者结构可以用来重建原数据。当你的损失函数没有考虑到正则化的时候或者你的网络很复杂的时候,autoencoder很可能出现过拟合,训练好的autoencoder在新的数据集上作用之后,输出的数值就未必能够复原新数据集了。

SofaSofa数据科学社区DS面试题库 DS面经

WinJ   2017-12-29 00:18



  相关讨论

线下训练集和测试集防过拟合

Random Forest 过拟合有什么好办法?

为什么过拟合不好?

关于神经网络调整缓解过拟合的问题?

关于LR过拟合的数据集问题

为什么GBDT比RF更容易overfitting?

决策树模型有什么特点以及如何防止过拟合?

无监督学习(比如K Means)里怎么加正则项来防止过拟合

训练集加入噪声防止over fitting还是加剧overfitting?

L1正则化和L2正则化的区别?L1为啥具有稀疏性?

  随便看看

seaborn.distplot直方图的y轴的数值是什么意思?

python里怎么表示科学计数法?

python里清除已经定义过的变量

numpy里的无穷大np.inf到底是多大呢?

pandas.DataFrame更改列名