网上很多画图的,说函数相交于坐标轴上。
那请问谁可以从代数角度解释一下,为什么L1 就能稀疏呢?
L(x) = f(x) + λ|w|
4个回答
1.你的图有错误,横轴和纵轴应该是$w_1$,$w_2$,不是 $x$。
2.loss function是参数 $w$的函数,不是输入数据$x$的函数。
$L(w)=\underset{w}{\mathrm{argmin}}(f_x(w)+\lambda|w|_n)$,$n=1,2$
$f_x(w)$是似然函数项,比如是$|X^Tw-y|^2$
3.左图中LASSO $w_1=0$,$w_2\neq0$,而右图中Ridge $w_1\neq0$,$w_2\neq0$,明显LASSO中非0的参数$w$更少,更稀疏。
SofaSofa数据科学社区DS面试题库 DS面经
如果想更深入了解L1 norm的稀疏性,可以看https://statistics.stanford.edu/sites/default/files/2004-09.pdf
证明了L1最小值等价于L0最小值,而L0 norm指参数的非零个数。显然L0越小越稀疏(非零参数个数少)。
-
Zealing
2018-09-07 13:43
L1并不能保证稀疏,毕竟likelihood也要影响解。只能说当多个解的likelihood cost相同时,L1倾向于选择最稀疏的解。
-
Zealing
2018-09-08 22:54
参考:
SofaSofa数据科学社区DS面试题库 DS面经
没看懂,可以麻烦你通俗的解释一下吗?
-
flcc
2018-08-21 14:19
具体哪里没看懂呢,我觉得那三个链接里的几个答案都挺具体的
-
新同学
2018-08-22 22:19
没有一个从代数角度解释L1 为什么可以稀疏,都是人云亦云
-
flcc
2018-09-07 11:40
参数更新的时候,L1求导值为+1或-1,假如说经常出现+1的话,k=k-α*1那么参数就会很快下降到0;L2求导的话值为w(权重,一般为小数),k=k-α*w,这样的话下降时不断减去一个越来越小的小数,只能慢慢趋近于0而无法到达0。
个人理解,求大佬指正。
SofaSofa数据科学社区DS面试题库 DS面经
如果K比较小,减到负数了呢
-
flcc
2018-09-08 18:31