为什么正则项通常都是用L1或者L2,而不是其他的?

  统计/机器学习 回归分析 监督式学习 开放问题    浏览次数:4235        分享
0

为什么正则项通常都是用L1或者L2,而不是其他的?比如L0.5,L0。


既然它们也是正则项,那么肯定也能起到防止过拟合的作用。但是通常我们都不会去尝试L0,L0.5,包括一切Lp,p<1。


谢谢您的回答

 

robertt   2018-06-08 05:36



   2个回答 
2

L0是非零个数,最稀疏,但是NP hard问题,不容易求解。L1对应Laplace分布,L2对应高斯分布,比较容易理解。至于Lp,p<1,可能求解很难,所以不常用。

L0一般用L1替代。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-06-08 13:07

1

其实除了单纯的L1,L2,常用的还有L1和L2的混合,称作ElasticNet(参考ElasticNet的目标函数是什么)


SofaSofa数据科学社区DS面试题库 DS面经

DuckU   2018-07-04 23:47



  相关讨论

最小角回归是天然的LASSO化?正则化参数怎么体现?

如何理解“迭代步骤本身就是一个正则化的过程”

L1范数回归与TV正则化哪个的回归效果更好?

L0 norm 正则是什么意思?

正则项里的L1,L2是什么意思?

L1正则化和L2正则化的区别?L1为啥具有稀疏性?

Lasso和岭回归的正则项包含截距(常数项)吗?

为什么很少用L0范数惩罚正则项?

如何简单理解正则化

xgboost有正则项为什么还会过拟合呢?

  随便看看

对于xgboost,还有必要做很多特征工程吗?

pytorch里view(-1, 1)什么意思?

协方差矩阵一定是满秩的吗?

如果样本不是正态分布,还能用t-test或者z-test吗?

python pandas里有没有类似R的summary的函数?