全部问题问题热门未解答所有标签标签收藏收藏我要提问

高维数据应该用什么聚类模型？

统计/机器学习无监督学习数据降维开放问题浏览次数：6173 分享

二维码

手机扫描二维码

面试中常见简答题？

我现在要做一个聚类，问题是维数特别大，因为有很多数值变量（200多个），还有很多分类变量（40多个），如果再对分类变量做独热处理的话，特征的个数就好几千了。这种高维数据应该用什么聚类模型？

K Means、阶层聚类或者GMM明显都不大合适。大家有这方面的经验吗？谢谢！

Robin峰 2018-07-31 11:39

4个回答

对于分类变量，可以先做one-hot encoding，然后单独对这部分用PCA降维，再和数值型变量组起来，用于聚类。仅仅是个人建议。

SofaSofa数据科学社区 DS面试题库 DS面经

咸魚 2018-08-01 20:15

可以用AutoEncoder进行降维，然后再做传统聚类

SofaSofa数据科学社区 DS面试题库 DS面经

一只布兰 2018-08-01 16:23

参考一下维基百科高维数据聚类

SofaSofa数据科学社区 DS面试题库 DS面经

yukio 2018-08-03 13:46

有一个算法叫做subspace clustering可以处理高维数据的聚类

SofaSofa数据科学社区 DS面试题库 DS面经

WinJ 2019-04-08 12:47

相关讨论

随机投影的实际效果如何？

三维以上聚类都要先降维？10维数据直接聚类然后silhouette判断效果可以吗？

什么时候应该用isomap降维方法？

低维嵌入(low dimension embedding)是什么意思？

维数大于样本数的问题

怎么评价tSNE的降维效果？

为什么LDA降维最多降到类别数k-1？

python里怎么实现t-SNE降维？

HDBSCAN和DBSCAN这两种聚类方法有什么区别？

k均值有用到EM的思想吗？

随便看看

线性回归需要满足哪些基本前提假设

sklearn里的LabelEncoder什么用？

修正R方(adjusted R square)是什么？

logloss的取值范围是多少？一般好的分类器能达到多少？

seaborn.distplot直方图的y轴的数值是什么意思？