决策树主要的三种算法,ID3、C4.5和CART。
它们有哪些明显的异同和特点呢?
谢谢!
3个回答
ID3 :信息增益Information Gain作为特征选取指标,多叉树,特征必须离散变量。
C4.5 :也以信息增益率作为特征选取指标,多叉树,特征也可以是连续变量。
CART: 以基尼系数gini index作为特征选取指标,二叉树,可用于分类,此外也可以用于回归。
CART是基尼系数gini index吗?难道不是gini imprurity
-
ljljlj
2017-12-10 07:09
gini系数是gini coefficient,index一般指的是impurity。不过不管怎么说,CART用的是gini impurity。
-
蓝色北方
2017-12-14 10:42
ID3奠定了决策树的理论基础,采用信息增益作为标准,但性能不好、计算消耗大,而且仅适用于分类标签,过拟合情况也严重 。
信息增益的计算中,熵仅作为减数进行加减计算,计算结果的偏差比较大 。
C4.5改进为采用增益率,性能消耗有所减小,可以适用于连续标签,但是过拟合情况还是有 。信息增益率的计算中,熵不仅作为减数进行加减计算,还作为分母,因此计算结果实质上更多考虑熵的作用,偏差相对较小。
CART进一步改进使用基尼(不纯性),应用更广,不仅可用于决策树,还可以用于回归,实践中在此基础上的优化更多。CART在python的机器学习标准包sklearn里已经被实现。