怎么理解lightgbm中的直方图法选择分裂点?

  统计/机器学习 特征选择    浏览次数:2935        分享
0

怎么理解lightgbm中的直方图法选择分裂点?

 

潇洒橙   2019-11-30 12:09



   1个回答 
3

之前普遍采用的方法是对数据集里一个特征所有的值进行排序,然后遍历每个值,从而选取最佳的分裂点。这个做法最大的问题就是速度太慢,因为先要进行排序,然后每次分裂都要遍历所有的点。考虑到现在很多数据集都很大,这样的做法会非常慢。

直方图的方法就是用k个离散点代替原始的数据,这样数据量就大大压缩了。k越大,越接近传统的方法,越容易过拟合;k越小,还原度就越低,越容易欠拟合。

直方图方法的示意图

SofaSofa数据科学社区DS面试题库 DS面经

kidd23   2019-12-19 11:11



  相关讨论

对于树模型,需不需要特征筛选

随机森林每次用多少个特征?

GBDT的数据在使用前有什么需要注意的吗?

对于数值特征,决策树是如何决定阈值的?

为什么特征重要性约大,在决策树里分裂的顺序却是越靠后呢?

怎么理解决策树是模型自己在做interaction?

随机森林给出的变量的Importance是怎么来的

adaboost里的feature importance和随机森林里的feature importance是一回事吗?

gbdt如何对连续特征离散化

使用lightgbm,训练前对数据特征赋予权重是否对结果有影响

  随便看看

查看sklearn的线性回归系数的p value

分类变量,进行One hot编码,维度升高,如何处理?

python里的<<或者>>符号是什么意思?

pandas同时返回一个dataframe的前几行(head)和后几行(tail)

AIC可以是负数吗?