为什么LR要用Sigmoid函数？-SofaSofa

如题，面试的时候被问到了...

今天二面了吗 2019-04-06 18:57

7个回答

Sigmoid是逻辑回归作为glm的link函数。之所以用它是因为：

1. 线性模型的输出都是在$[-\infty, +\infty]$之间的，而Sigmoid能够把它映射到$[0,1]$之间。正好这个是概率的范围。

2. Sigmoid是连续光滑的。

3. 根据Sigmoid函数，最后推导下来逻辑回归其实就是最大熵模型，根据最大似然估计得到的模型的损失函数就是logloss。这让整个逻辑回归都有理可据。

4. Sigmoid也让逻辑回归的损失函数成为凸函数，这也是很好的性质。

5. 逻辑回归的损失函数是二元分类的良好代理函数，这个也是Sigmoid的功劳。

至于为什么LR不用MSE，看这里。

SofaSofa数据科学社区 DS面试题库 DS面经

kidd23 2019-04-07 10:38

赞！ - TheTheThe 2019-05-16 12:38

Sigmoid就是有广义线性模型GLM推出来的。对于分类问题，GLM的基本思想是把输入$X$的线性组合($score_k(x)=\beta_kx$)通过逆link function映射到非线性的概率分布$P(Y=k|x)=P_k(x)=\Phi(\beta_kx)$。$\Phi$是link function的逆函数，有两种选择：一种是logistic function/Sigmoid，是取自然指数后再归一化， $P_k(x)=e^{\beta_kx}/Z$，得到logistic regression，残差是logistic分布；还有一种是正态分布的CDF，得到Probit model，残差是正态分布。

对于二元分类，$Z=e^{\beta_0x}+e^{\beta_1x}$,归一化后只有一组参数$\beta$是独立的：

$$P_1(x)=\frac{e^{\beta_1x}}{e^{\beta_1x}+e^{\beta_0x}}$$

$$=\frac{1}{1+e^{-(\beta_1-\beta_0)x}}$$

$$=\frac{1}{1+e^{-\beta x}}$$

Sigmoid就是softmax 在K=2的特例。

然后是假设数据点都服从独立的伯努利分布，建立似然函数，再用最大似然法求$\beta$，这些都和Sigmoid无关。

SofaSofa数据科学社区 DS面试题库 DS面经