我在同样的一个数据集上用了三个不同的模型,分别是逻辑回归,随机森林,Xgboost。
我用回归系数的绝对值大小表示特征在逻辑回归中的重要性,用feature importance表示随机森林和Xgb里特征的重要性。
但是发现这三个模型中最重要的前十个特征并不相同,这是为什么呢?我该用哪个模型的特征重要性呢?
1个回答
1. 建议你贴出来三种模型得到的最重要特征, 它们是完全没有重合还是有部分重合?便于接下来分析;
2. 按理说,重要的特征应该是相同的,你可以做一下PCA;
3. 这三种模型的表现怎么样?会不会逻辑回归很差?
SofaSofa数据科学社区DS面试题库 DS面经