我们一般都是回归问题、分类问题经常提到over-fitting,那么unsupervised learning,比如聚类,也会不会出现over-fitting?
2个回答
会的。和监督式学习一样,是有可能发生过拟合的,当然也有可能会欠拟合。
一个简单的例子是用K-Means做聚类,如果K太小,很可能会发生欠拟合(模型过于笼统)
如果K太大,很可能发生过拟合(模型过于细致)
不光是聚类,其他非监督学习的算法也会出现过拟合。
过拟合的本质就是过分地学习了训练样本中的噪音杂质,从而削弱了泛化能力。
比如PCA,如果样本中有一些离谱的噪点,PCA算法的损失函数就会很大程度地被噪点影响。当你把训练出来的PCA作用在新的数据集上的时候,你得到的结果也许就非常离谱,因为你对训练集过拟合了。
同样的问题也会出现在autoencoder上,在某个数据集上训练出一个autoencoder,网络中的权重或者结构可以用来重建原数据。当你的损失函数没有考虑到正则化的时候或者你的网络很复杂的时候,autoencoder很可能出现过拟合,训练好的autoencoder在新的数据集上作用之后,输出的数值就未必能够复原新数据集了。
SofaSofa数据科学社区DS面试题库 DS面经