全部问题问题热门未解答所有标签标签收藏收藏我要提问

请问 L1 到底为什么具有稀疏性

统计/机器学习监督式学习特征选择浏览次数：6981 分享

二维码

手机扫描二维码

案例分析面试常见题？

网上很多画图的，说函数相交于坐标轴上。

那请问谁可以从代数角度解释一下，为什么L1 就能稀疏呢？

L(x) = f(x) + λ|w|

flcc 2018-08-21 11:38

4个回答

1.你的图有错误，横轴和纵轴应该是$w_1$，$w_2$，不是 $x$。

2.loss function是参数 $w$的函数，不是输入数据$x$的函数。

$L(w)=\underset{w}{\mathrm{argmin}}(f_x(w)+\lambda|w|_n)$，$n=1,2$

$f_x(w)$是似然函数项，比如是$|X^Tw-y|^2$

3.左图中LASSO $w_1=0$,$w_2\neq0$，而右图中Ridge $w_1\neq0$,$w_2\neq0$，明显LASSO中非0的参数$w$更少，更稀疏。

SofaSofa数据科学社区 DS面试题库 DS面经

Zealing 2018-08-22 22:32

如果想更深入了解L1 norm的稀疏性，可以看https://statistics.stanford.edu/sites/default/files/2004-09.pdf 证明了L1最小值等价于L0最小值，而L0 norm指参数的非零个数。显然L0越小越稀疏（非零参数个数少）。 - Zealing 2018-09-07 13:43

L1并不能保证稀疏，毕竟likelihood也要影响解。只能说当多个解的likelihood cost相同时，L1倾向于选择最稀疏的解。 - Zealing 2018-09-08 22:54

参考：

为什么LASSO具有稀疏性，

L1和L2的区别是什么？为什么L1是稀疏的？

Ridge和LASSO的区别

SofaSofa数据科学社区 DS面试题库 DS面经

新同学 2018-08-21 12:43

没看懂，可以麻烦你通俗的解释一下吗？ - flcc 2018-08-21 14:19

具体哪里没看懂呢，我觉得那三个链接里的几个答案都挺具体的 - 新同学 2018-08-22 22:19

没有一个从代数角度解释L1 为什么可以稀疏，都是人云亦云 - flcc 2018-09-07 11:40

参数更新的时候，L1求导值为+1或-1，假如说经常出现+1的话，k=k-α*1那么参数就会很快下降到0；L2求导的话值为w（权重，一般为小数），k=k-α*w，这样的话下降时不断减去一个越来越小的小数，只能慢慢趋近于0而无法到达0。

个人理解，求大佬指正。

SofaSofa数据科学社区 DS面试题库 DS面经

GEASS 2018-09-07 21:16

如果K比较小，减到负数了呢 - flcc 2018-09-08 18:31

有人知道吗？

SofaSofa数据科学社区 DS面试题库 DS面经

flcc 2018-09-10 16:37

相关讨论

lasso path是什么意思？

为什么LASSO可以做特征选择，而Ridge却不行？

post lasso是什么意思？

惩罚系数不变，特征变大，是不是更容易被Lasso去除？

Lasso是对数值大的系数压缩大还是数值小的系数压缩大？

关于lasso和ridge的区别

L2-norm为什么会让模型变得更加简单？

询问LASSO特征选择与频次图绘制

反复多次Lasso进行特征选择？

sklearn里的LassoCV和Lasso有什么区别？怎么用？

随便看看

numpy.array从行向量转为列向量

dataframe每行或者每列中缺失值(na, nan, null)的个数

向量梯度下降优化的最佳步长？

推荐系统有哪些常用的评价标准

不用洛必达法则证明sin x比上x的极限是1