Gini指数(Gini index)、Gini系数(Gini coefficient)、Gini不纯(Gini impurity)是一回事吗?
决策树算法CART中用的是哪一个?
经常搞不清楚这三者,还有经济学中的基尼系数,它和这三个又有什么关系?
2个回答
决策树算法CART中用的是哪一个?
用的是Gini impurity,也就是基尼不纯。
Gini impuirty是什么?
假设这个数据集里有$k$种不同标签,第$i$个标签所占的比重为$p_i$,那么Gini impurity为
$$1-\sum_{i=1}^k p^2_i,$$
它描述了一个数据集中标签分布的纯度,类似于entropy。
Gini coefficient是什么?
Gini coefficnet针对于二元分类问题。对于二元分类问题,我们的预测结果会有对应的ROC AUC,那么
$$\text{GiniCoefficient}=2AUC-1$$
经济学中的基尼系数是什么?和上面的GiniCoefficient是一回事吗?
是的,本质是一回事。经济学中GiniCoefficient用累计分布来衡量一个地区财富的分配的合理程度。当$G=0$,说明财富均匀分配。
分类问题中,GiniCoefficient用累积分布衡量正负两种标签的分配合理程度。当$G=0$,说明正负标签的预测概率均匀分配,模型相当于是随机排序,所以$AUC=0.5$。
Gini index是什么?
这是一个尴尬的问题,因为很多时候有人把gini index等价于gini impurity,但有人有时候把它用作gini coefficient。你自己看懂别人的上下文就好了,自己可以避免使用,防止让别人误会。