如何对地理位置坐标和日期时间的数据做聚类?

  统计/机器学习 无监督学习 时间序列 空间信息 应用场景    浏览次数:894        分享
0

背景:数据集中每一行都包含了一个地理坐标(有经纬度),一个时间(日期,到秒)。

目标:对这些数据做聚类,大致的想法是时间近的尽量靠在一起,距离近的尽量靠在一起。

请教大家有什么聚类模型适合这样的数据的吗?

 

jimmy   2022-03-28 21:10



   1个回答 
0

位置:建议直接用经度、纬度,这两个变量

时间:直接从第一个时间戳(开始)开始算,就可以把每个时间信息转成距开始的时长,比如可以以天或者小时或者分钟为单位

这样就有三个特征了

特征1:经度;特征2:纬度;特征3:离起始时刻的时长


时间还具有周期性,可以根据聚类的目的来划分,比如是否为周末(星期几),是否为早上等等,这样就可以做出更多的特征,例如

特征1:经度;特征2:纬度;特征3:离起始时刻的时长;特征4:是否为周末,等等


进行聚类的时候,还需要考虑到位置特征的权重和时间特征的权重要相接近,所以可能也要做一些标准化的处理,最后用K-means或者层次聚类应该都是可以的。

SofaSofa数据科学社区DS面试题库 DS面经

yxyu   2022-04-20 23:58



  相关讨论

python里怎么实现Dynamic Time Warp(DTW)算法呢?

根据经度、纬度,用python求两个地点的实际距离

lstm可以用来做产量销量预测吗

如何处理片段式停车数据

cvr和ctr的区别是什么?

想请教机器学习能不能解决一个问题

关于一个视频任务的分类和解决问题探讨

火车站晚点预测

在数据很大的场景下怎么进行数据探索?

fatigue model是什么模型?

  随便看看

多个独立同分布的均匀随机变量的最小值的期望是多少?

matplotlib.pyplot做折线图的时候,显示为虚线,或者点划线?

把pandas.DataFrame中所有行全部随机排列

协方差矩阵一定是满秩的吗?

线性回归需要满足哪些基本前提假设