如果用xgboost模型,那么还需要先做feature selection吗?
还是说不管三七二十一直接把完整的数据一起扔到xgboost里训练?
3个回答
一般来说,xgboost(包括random forests)对冗余的变量是不敏感的。
但是正如MangoCoke说的,“垃圾”变量肯定是对模型有负面影响的。
另外一方面,xgboost或者说每棵树在选择分叉点的时候,都是以贪婪的方式选择局部最优,所以有些特征可能在局部不错,但是从整体上看降低了模型整体的精度。
再有就是不相关或者重复的变量会影响最终的feature importance。
SofaSofa数据科学社区DS面试题库 DS面经