Adam优化算法

  数学 数值计算 最优化    浏览次数:6994        分享
3

有了解ADAM这种优化算法的吗?在Keras一些nerual net的包里经常是用Adam方法作为默认solver。我大概知道Adam算是SGD的一种改良。但是我也是一知半解的,不是非常清楚它具体是怎么一回事,又是如何改良SGD的。

求懂adam的大神解答一下!

谢谢!(教师节快乐^_^)


 

七号信仰   2017-09-10 14:26



   1个回答 
4

Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。


特点:

  1. 结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点 
  2. 对内存需求较小
  3. 为不同的参数计算不同的自适应学习率
  4. 也适用于大多非凸优化 - 适用于大数据集和高维空间
SofaSofa数据科学社区DS面试题库 DS面经

djpp123   2017-12-20 21:43



  相关讨论

最速下降法与梯度下降法

nesterov’s momentum和momentum的区别?

Newton–Raphson和牛顿法区别?

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别

梯度上升算法是什么?

对于小批量随机剃度下降法(mini-batch SGD),如何选择每批样本的数量?

随机梯度下降(sgd)的收敛问题

牛顿法到底是一阶优化算法还是二阶优化算法?

学习率不当会导致sgd不收敛吗?

为什么梯度的反方向是函数下降最快的方向?

  随便看看

神经网络中的dense和sparse是什么意思?

matplotlib画图怎么确保横坐标和纵坐标的单位长度一致?

查看sklearn的线性回归系数的p value

怎么直观理解ROC AUC的概率统计意义?

向量梯度下降优化的最佳步长?