sklearn里的RandomForest有max_features这个参数,请问如何理解这个参数?是指每棵树的特征最大数吗?
1个回答
决策树每一次分裂,都需要找到某个“最佳”特征,使得模型在该特征的某个值上分裂之后得到的收益最大化。
如果不设置max features的话,那么每次分裂都会遍历每一个可行特征,并从中选择最佳的;如果设置这个参数为n,那么每次分裂前只会选择n个随机特征,并从其中选择最佳的。
这个特征有利于增加random forest中各个树之间的差异性,有助于降低整个random forest的variance。
SofaSofa数据科学社区DS面试题库 DS面经