机器学习萌新一枚。
只知道正则化可以用来调节系数权重,处理过拟合
求大佬告知其中的区别,以及L1为啥具有稀疏性?
5个回答
在线性模型里
L1对应的是LASSO
L2对应的是Ridge
我来做个搬运工吧
L1为啥具有稀疏性?
-
betten
2018-03-28 17:35
请参考我上面回答中的第一个链接。
-
DuckU
2018-03-28 20:32
L2正则相当于是高斯先验
L1正则相当于是拉普拉斯先验
正则项是L1norm(x)时,x满足拉普拉斯分布,比较稀疏
正则项是L2norm(x)时,x满足高斯分布,不是太稀疏
-
Zealing
2018-03-23 12:53
L1为啥具有稀疏性?
-
betten
2018-03-28 17:36
L1正则化是一范式,而L2正则化是二范式。简单来说在线性模型中,L1的惩罚系数是关于w的一次方,L2的惩罚系数是关于w的平方,类似于$|w|$和$\frac{1}{2}|w|^{2}$
SofaSofa数据科学社区DS面试题库 DS面经
L1为啥具有稀疏性?
-
betten
2018-03-28 17:36
直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项 在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏,
SofaSofa数据科学社区DS面试题库 DS面经还有就是同样的数,值小的时候,L1范式与l2范式差异不大,值大的时候,L2范式与L1差异大,也就是L2对大数的惩罚力度更大
L1为啥具有稀疏性?
-
betten
2018-03-28 17:36