dbscan 中的参数值如何确定?

  统计/机器学习 无监督学习    浏览次数:1498        分享
0

dbscan中的参数值有没有比较好的确定方法

 

mashagua   2021-07-23 09:20



   1个回答 
0

只有一些经验规律:

  1. 数据量越大,选择的聚合点越多
  2. 数据量噪音越大,选择的聚合点越多
  3. 聚合点一般大于等于数据维度
  4. 对于2维数据,建议使用4
  5. 对于多于二维数据,初始可以从 (2*维度) 调起

然后距离设定的话,https://iopscience.iop.org/article/10.1088/1755-1315/31/1/012012/pdf,这篇文章给了个方案,就是求出数据集每两个点的距离,然后按照距离绘制图案,找到拐点最大的距离,就是最优的分离出所有点的距离。

SofaSofa数据科学社区DS面试题库 DS面经

threecifanggen   2021-10-14 12:12



  相关讨论

层次聚类中的Ward's method是什么意思

什么是K-Modes(K众数)聚类法?

谱聚类中的相似矩阵是怎么定义的?

软聚类,硬聚类?

聚类问题可以用stacking model的方法吗?

层次聚类里的linkage是什么意思?

python中实现k-modes的包

k均值有用到EM的思想吗?

有没有对聚类成员个数有限制的聚类算法?

HDBSCAN和DBSCAN这两种聚类方法有什么区别?

  随便看看

对于xgboost,还有必要做很多特征工程吗?

如何复制一个pandas DataFrame

随机森林(random forest)和支持向量机(SVM)各有什么优劣

logloss的取值范围是多少?一般好的分类器能达到多少?

把tf.Tensor转换为numpy array