高维数据应该用什么聚类模型?

  统计/机器学习 无监督学习 数据降维 开放问题    浏览次数:5491        分享
1

我现在要做一个聚类,问题是维数特别大,因为有很多数值变量(200多个),还有很多分类变量(40多个),如果再对分类变量做独热处理的话,特征的个数就好几千了。这种高维数据应该用什么聚类模型?


K Means、阶层聚类或者GMM明显都不大合适。大家有这方面的经验吗?谢谢!

 

Robin峰   2018-07-31 11:39



   4个回答 
5

对于分类变量,可以先做one-hot  encoding,然后单独对这部分用PCA降维,再和数值型变量组起来,用于聚类。仅仅是个人建议。

SofaSofa数据科学社区DS面试题库 DS面经

咸魚   2018-08-01 20:15

4

可以用AutoEncoder进行降维,然后再做传统聚类

SofaSofa数据科学社区DS面试题库 DS面经

一只布兰   2018-08-01 16:23

1

参考一下维基百科高维数据聚类


SofaSofa数据科学社区DS面试题库 DS面经

yukio   2018-08-03 13:46

0

有一个算法叫做subspace clustering可以处理高维数据的聚类

SofaSofa数据科学社区DS面试题库 DS面经

WinJ   2019-04-08 12:47



  相关讨论

随机投影的实际效果如何?

三维以上聚类都要先降维?10维数据直接聚类然后silhouette判断效果可以吗?

什么时候应该用isomap降维方法?

低维嵌入(low dimension embedding)是什么意思?

维数大于样本数的问题

怎么评价tSNE的降维效果?

为什么LDA降维最多降到类别数k-1?

python里怎么实现t-SNE降维?

HDBSCAN和DBSCAN这两种聚类方法有什么区别?

k均值有用到EM的思想吗?

  随便看看

线性回归需要满足哪些基本前提假设

sklearn里的LabelEncoder什么用?

修正R方(adjusted R square)是什么?

logloss的取值范围是多少?一般好的分类器能达到多少?

seaborn.distplot直方图的y轴的数值是什么意思?