这是以两个变量为例,求解变量的系数。左图是lasso优化,右图是rigde优化过程
我的疑问:
为什么lasso是有Corner的,如何得出这个结果的。(我的理解这个矩形是通过对1范式(绝对值)求导获得的结果集(-1,1)组成的)那么岭回归呢?
实在想不通了,请教各位大佬了,谢谢!
1个回答
真正画全了的图应该是两组等高线,一个像你图中的椭圆等高线(contour),在贝叶斯框架中表示的是似然函数(likelihood),描述如何由未知变量生成观测值的数学模型;对于Lasso,另一组是正方形等高线,代表的是先验知识(prior)。最优解就是这两组等高线的交点。因为相交点有无数个,具体相交点的选择由拉格朗日乘数来控制,确定似然函数和先验知识在loss中的比重。
一般为了说明prior项的作用,只画一条线示意,代替等高线曲面。比如$|w_1|+|w_2|=1$,画出来就是你左图的正方形。$|w_1|+|w_2|=2$会是更大的正方形。
如果是ridge,应该是一组圆形等高线,或者说是一个倒的圆锥。
SofaSofa数据科学社区DS面试题库 DS面经
谢谢您的回答。大概懂了。
不过其中的一些细节因为自己没有推导过,所以不是非常了解(例如拉格朗日乘数等)。请问有相关较好的书籍可以推荐吗
-
jd910910
2018-08-14 09:50
你可以看 “The Elements of Statistical Learning” 第68页。https://web.stanford.edu/~hastie/Papers/ESLII.pdf
拉格朗日乘数高数教过,具体作用就是控制多个限制条件的重要性。
-
Zealing
2018-08-14 10:08