背景:数据集中每一行都包含了一个地理坐标(有经纬度),一个时间(日期,到秒)。
目标:对这些数据做聚类,大致的想法是时间近的尽量靠在一起,距离近的尽量靠在一起。
请教大家有什么聚类模型适合这样的数据的吗?
1个回答
位置:建议直接用经度、纬度,这两个变量
时间:直接从第一个时间戳(开始)开始算,就可以把每个时间信息转成距开始的时长,比如可以以天或者小时或者分钟为单位
这样就有三个特征了
特征1:经度;特征2:纬度;特征3:离起始时刻的时长
时间还具有周期性,可以根据聚类的目的来划分,比如是否为周末(星期几),是否为早上等等,这样就可以做出更多的特征,例如
特征1:经度;特征2:纬度;特征3:离起始时刻的时长;特征4:是否为周末,等等
进行聚类的时候,还需要考虑到位置特征的权重和时间特征的权重要相接近,所以可能也要做一些标准化的处理,最后用K-means或者层次聚类应该都是可以的。
SofaSofa数据科学社区DS面试题库 DS面经