L1范数回归与TV正则化哪个的回归效果更好?

  统计/机器学习 回归分析 开放问题    浏览次数:10259        分享
0

基于L1范数作为惩罚项(正则项)的回归就是LASSO回归,文献中分析说具有自动降维的功能,相比于基于2范数即Tikhonov正则化的回归能够避免回归结果的过渡平滑,而TV正则化的描述中也说其可以避免Tikhonov正则化的过渡平滑。从数学公式上来看,LASSO的惩罚项是超平面广义斜率的绝对值之和,TV正则化的惩罚项是超平面广义斜率的梯度的绝对值之和,这二者在实际表现中,是否有优劣之分或者适用的问题范围呢?

 

CE_PAUL   2019-01-21 14:44



   1个回答 
3

它们不可比。LASSO是$\sum |w|_1$,$w$之间是独立的,比如身高和体重对应的系数就独立。LASSO只能让$w$稀疏,不能让它smooth。而TV是$\sum\sqrt{(\nabla w_i)^2}$,其中$\nabla w_i$是$w_i$的local gradient vector。$w_i$和$w_{i+1}$相关,比如图像或音频。TV是让相邻系数间的差稀疏,也就是系数smooth。和TV相比的是$w$ local gradient 的L1,L2norm。经验上是光滑程度L2>TV>L1。

L1对应$\nabla w \sim Laplace$, L2对应$\nabla w \sim Gaussian$,TV介于两者间。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-01-21 16:21

多谢多谢 - CE_PAUL   2019-01-21 18:27


  相关讨论

最小角回归是天然的LASSO化?正则化参数怎么体现?

如何理解“迭代步骤本身就是一个正则化的过程”

为什么正则项通常都是用L1或者L2,而不是其他的?

L0 norm 正则是什么意思?

正则项里的L1,L2是什么意思?

L1正则化和L2正则化的区别?L1为啥具有稀疏性?

Lasso和岭回归的正则项包含截距(常数项)吗?

为什么很少用L0范数惩罚正则项?

如何简单理解正则化

xgboost有正则项为什么还会过拟合呢?

  随便看看

ARIMA模型中的三个参数(p, d, q)都是什么意思?

对于xgboost,还有必要做很多特征工程吗?

python直方图y轴显示占比,而不是绝对数值

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别

如何度量一个分布长尾的程度?