怎么理解lightgbm中的直方图法选择分裂点?
1个回答
之前普遍采用的方法是对数据集里一个特征所有的值进行排序,然后遍历每个值,从而选取最佳的分裂点。这个做法最大的问题就是速度太慢,因为先要进行排序,然后每次分裂都要遍历所有的点。考虑到现在很多数据集都很大,这样的做法会非常慢。
直方图的方法就是用k个离散点代替原始的数据,这样数据量就大大压缩了。k越大,越接近传统的方法,越容易过拟合;k越小,还原度就越低,越容易欠拟合。
直方图方法的示意图
SofaSofa数据科学社区DS面试题库 DS面经