全部问题问题热门未解答所有标签标签收藏收藏我要提问

为什么正则项通常都是用L1或者L2，而不是其他的？

统计/机器学习回归分析监督式学习开放问题浏览次数：5187 分享

二维码

手机扫描二维码

案例分析面试常见题？

为什么正则项通常都是用L1或者L2，而不是其他的？比如L0.5，L0。

既然它们也是正则项，那么肯定也能起到防止过拟合的作用。但是通常我们都不会去尝试L0，L0.5，包括一切Lp，p<1。

谢谢您的回答

robertt 2018-06-08 05:36

2个回答

L0是非零个数，最稀疏，但是NP hard问题，不容易求解。L1对应Laplace分布，L2对应高斯分布，比较容易理解。至于Lp，p<1，可能求解很难，所以不常用。

L0一般用L1替代。

SofaSofa数据科学社区 DS面试题库 DS面经

Zealing 2018-06-08 13:07

其实除了单纯的L1，L2，常用的还有L1和L2的混合，称作ElasticNet(参考ElasticNet的目标函数是什么)

SofaSofa数据科学社区 DS面试题库 DS面经

DuckU 2018-07-04 23:47

相关讨论

最小角回归是天然的LASSO化？正则化参数怎么体现？

如何理解“迭代步骤本身就是一个正则化的过程”

L1范数回归与TV正则化哪个的回归效果更好？

L0 norm 正则是什么意思？

正则项里的L1，L2是什么意思？

L1正则化和L2正则化的区别?L1为啥具有稀疏性？

Lasso和岭回归的正则项包含截距（常数项）吗？

为什么很少用L0范数惩罚正则项？

如何简单理解正则化

xgboost有正则项为什么还会过拟合呢？

随便看看

对于xgboost，还有必要做很多特征工程吗？

pytorch里view(-1, 1)什么意思?

协方差矩阵一定是满秩的吗？

如果样本不是正态分布，还能用t-test或者z-test吗？

python pandas里有没有类似R的summary的函数？