partial dependence是什么意思?有什么用?据说可以看特征和target的关系,然后选择特征,是这样的吗?
1个回答
我们用xgboost或者random forest的时候,一般都说这些是黑箱模型,我们可以得到特征的重要性(feature importance之类的),但是很难理解每个特征和目标值的关系;而线性模型就很好的解释性。
Partial Dependence就是用来解释某个特征和目标值y的关系的,一般是通过画出Partial Dependence Plot(PDP)来体现。
PDP是依赖于模型本身的,所以我们需要先训练模型(比如训练一个random forest模型)。假设我们想研究$y$和特征$X_1$的关系,那么PDP就是一个关于$X_1$和模型预测值的函数。我们先拟合了一个随机森林模型$\text{RF}(X)$,然后用$X_{i}^k$表示训练集中第$k$个样本的第$i$个特征,那么PDP的函数就是
$$f(X_1)=\frac{1}{n}\sum_{k=1}^n\text{RF}(X_1, X_{2}^k,X_{3}^k,\cdots,X_{n}^k)$$
也就是说PDP在$X_1$的值,就是把训练集中第一个变量换成$X_1$之后,原模型预测出来的平均值。
根据$X_1$的不同取值,$f(X_1)$就可以练成折线,这个折线就是Partial Dependence Plot,横轴是$X_1$,纵轴就是Partial Dependence。
下图就是一个例子
请问这个partial dependence值代表了什么?谢谢您
-
舒畅
2021-09-22 13:43
请问图上这个partial dependence值代表了什么?它的高低代表什么?谢谢您
-
飞时过
2021-09-22 13:44