岭回归(RS)和最小二乘支持向量回归(LS_SVR)的凸二次回归问题其实是一样的,就是岭回归的正则化参数是乘在惩罚项(权重向量/斜率 的内积)上,而最小二乘支持向量机的正则化参数是乘在误差项上的,在这样的情况下为什么会出现当训练点数大于维度数时岭回归的计算量小于最小二乘支持向量回归呢?
希望知道关系:Y=XTω,其中X是一个N*M矩阵,由M个N维列向量组成
RS: ω=(XXT+αI)-1XY
LS_SVR: 当映射函数φ(X)=X时,公式为,ω=X(XTX+γ-1I)-1Y
可以发现RS需要对一个N*N矩阵求逆,LS_SVR需要对一个M*M矩阵求逆,一般而言M大于N,所以LS_SVR的计算量将显著大于RS的计算量。但是他们的二次规划问题的形式是一样的,只是正则化参数(可以看成一个常系数)乘的位置不一样,怎么会造成最后的求解公式结果不一样呢?难道只是因为求解方法不一样?因为LS_SVR是拉格朗日乘数法而RS是直接对待求权重求偏导?
2个回答
你提到的
Ridge
$$(XX^T+\alpha I)^{-1}X$$
和最小二乘SVM回归的
$$X(X^TX+\gamma^{-1}I)^{-1}$$
当$\alpha=\gamma^{-1}$的时候,就是完全等价的吧,你把两个逆矩阵分别左乘右乘一下,就得到一样的了
Ridge
$$X(X^TX+\gamma^{-1}I)$$
LS SVR
$$(XX^T+\alpha I)X$$
SofaSofa数据科学社区DS面试题库 DS面经当去掉正则项后,从数学上二者是等价的。比如$X=USV^T$,
$$w_{RS}=(XX^T)^{-1}XY=(US^{-1}V^TVS^{-1}U^T)USV^TY=US^{-1}V^TY$$
$$w_{LS_SVR}=X(X^TX)^{-1}Y=USV^T(VS^{-1}U^TUS^{-1}V^T)Y=US^{-1}V^TY$$
显然二者相等。但是在实际数值计算上二者并不相等,因为$XX^T$或$X^TX$可能不可逆,需要加正则项让他们可逆,求出稳定(stable)的逆矩阵解。至于$XX^T$和$X^TX$谁求逆更稳定,理论不太清楚。我的感觉是越小的矩阵越容易求逆。比如$X$是$N\times M$,如果$N<M$,则应该用RS。
SofaSofa数据科学社区DS面试题库 DS面经