对于一般线性回归,我们知道自变量X的系数C表示,X增加1,因变量Y会增加C。
那么对于逻辑回归中变量的系数,我们应该怎么理解呢?
4个回答
逻辑回归的系数和概率值并不像线性回归的系数有那么直接的线性关系。
逻辑回归模型是
Logit(p)=log(p1−p)=β0+β1x1+β2x2+⋯+βpxp.
所以,Logit(p)和变量的系数是线性关系,也就是log odds和系数是成线性关系。但是当从log odds转化为odds,再转化为概率p的时候,却没有线性关系,而且它的数值变化和x的取值也有关。
举例来说,Logit(p)=log(p1−p)=1+βx,对于x=2来说,
上图可以看出,系数beta的变动和Logit(p)的变动是线性的。
但是odds p1−p和beta就不再是线性的了。
对于最后的概率,就更难直接从beta的角度进行解释。
所以我们一般是阐释系数和log odds或者logit函数的线性关系,也就是在逻辑回归当中,x每增加一个单位,logit函数增加beta个单位。
以一元logistic回归:log(π(x)1−π(x))=α+βx为例,
可以有两种解释:
- 在给定自变量x=x1的情况下,x每增加一个单位,π(x)的值增加βπ(x1)[1−π(x1)]
- 自变量x每增加1,其优势(即@沛县李刚 说的odds )为原来的eβ次方倍
展开来说:
第一点:可以根据logistic的公式,将π(x)提至等式左边,令π(x)对x求导得到。
第二点:优势的定义是π1−π,可以理解为一般一次失败会伴随着几次成功。推导过程如下:
π(x)×11−π(x)
=exp(α+βx)1+exp(α+βx)×(1+exp(α+βx))
=exp(α+βx)
=eαeβx
=eα(eβ)x
SofaSofa数据科学社区DS面试题库 DS面经如果只是定性地来看的话,在特征都已经标准化(或者归一化)的情况下,系数的绝对值越大,说明这个特征越重要。
若系数为正,这个特征与目标值为1的概率正相关;若系数为负,这个特征与目标值为0的概率正相关。