怎么理解所谓的dying relu?

  统计/机器学习 人工神经网络    浏览次数:4436        分享
1

印象中一般都是说sigmoid会在两端梯度消失,dying relu这个该怎么理解?

 

初学者   2019-04-01 12:17



   1个回答 
6

假设一个神经元(neuron)是$Relu(wx+b)$。因为一般用mini batch(SGD)优化算法,每次计算gradient只用一组(batch)数据点。假如用一组数据点更新$w,b$后,其余数据点$wx+b<0$,那么只会有一组点能通过这个neuron并更新它的参数,对于绝大多数点来说,不能通过这个neuron,也不能更新参数,相当于“死掉”。如果dying relu 很多,对于大多数数据来说神经网络大部分通路断掉,学习能力就变弱了。

解决办法是用leakyRelu等;bias的初始值设为正数,比如1;减小learning rate。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-04-02 16:01



  相关讨论

sigmoid, tanh, arctan这几个激活函数为什么长这么像?

elu激活函数是什么?

怎么理解神经网络中的激活函数hard sigmoid?

激活函数RELU在0点的导数是多少?

softmin是什么激活函数?

purelin激活函数是什么?

如果特征都是非负的,那么用RELU作为激活函数还有意义吗?

LeakyReLu是什么意思?

激活函数leakyRELU和pRELU的区别是什么?

激活函数multi-sigmoid和softmax有什么区别?

  随便看看

cvr和ctr的区别是什么?

python或者numpy求数值的中位数、四分位数

laplace光滑什么意思

用一个骰子生成1到7的随机数?

sklearn可以用gpu加速吗?