dbscan中的参数值有没有比较好的确定方法
1个回答
只有一些经验规律:
- 数据量越大,选择的聚合点越多
- 数据量噪音越大,选择的聚合点越多
- 聚合点一般大于等于数据维度
- 对于2维数据,建议使用4
- 对于多于二维数据,初始可以从 (2*维度) 调起
然后距离设定的话,https://iopscience.iop.org/article/10.1088/1755-1315/31/1/012012/pdf,这篇文章给了个方案,就是求出数据集每两个点的距离,然后按照距离绘制图案,找到拐点最大的距离,就是最优的分离出所有点的距离。
SofaSofa数据科学社区DS面试题库 DS面经