经常看到说,根据熵什么什么,然后就选了某个特征来选分叉。熵到底是怎么来的?怎么利用它来决定分叉的呢?
1个回答
熵是信息不确定度的度量,做分类,最后的目标是都分对类别,所以理想中,树的最下层叶节点如果够纯,其实没有不确定性,因此熵是0,而决策树就是要找到一条熵下降最快的路径。
所以选择这一层用哪个特征来分裂最好,其实就是看哪个特征能让熵下降的最多,让信息的不确定度因为有了这个特征而减少的最多。
SofaSofa数据科学社区DS面试题库 DS面经经常看到说,根据熵什么什么,然后就选了某个特征来选分叉。熵到底是怎么来的?怎么利用它来决定分叉的呢?
熵是信息不确定度的度量,做分类,最后的目标是都分对类别,所以理想中,树的最下层叶节点如果够纯,其实没有不确定性,因此熵是0,而决策树就是要找到一条熵下降最快的路径。
所以选择这一层用哪个特征来分裂最好,其实就是看哪个特征能让熵下降的最多,让信息的不确定度因为有了这个特征而减少的最多。
SofaSofa数据科学社区DS面试题库 DS面经