假设每个样本都有自己的一条时间序列曲线,怎么对时间序列类的数据进行聚类?
2个回答
使用传统K-Means等等都可以,问题的关键是如何定义距离。有两个东西可以给你参考:
1. Time Series Data Clustering,书籍Data Clustering: Algorithms and Applications的第15章,从学术的角度阐明各种不同时间序列聚类的方法;
2. 近几年刚刚提出的K-Shape算法:http://www1.cs.columbia.edu/~jopa/Papers/PaparrizosSIGMOD2015.pdf
SofaSofa数据科学社区DS面试题库 DS面经要看你聚类的目的是什么了。简单一点的话,就每个样本提起出均值和方差,然后做两维的kmeans。
稍微复杂一点,就以每个时间点作为一个特征,比如每个样本都有相同起始终止点,一共有50个时间点,那么相当于每个样本都有50个特征,然后做50维的kmeans。
SofaSofa数据科学社区DS面试题库 DS面经