全部问题问题热门未解答所有标签标签收藏收藏我要提问

Adam优化算法

数学数值计算最优化浏览次数：8214 分享

二维码

手机扫描二维码

案例分析面试常见题？

有了解ADAM这种优化算法的吗？在Keras一些nerual net的包里经常是用Adam方法作为默认solver。我大概知道Adam算是SGD的一种改良。但是我也是一知半解的，不是非常清楚它具体是怎么一回事，又是如何改良SGD的。

求懂adam的大神解答一下！

谢谢！（教师节快乐^_^)

七号信仰 2017-09-10 14:26

1个回答

Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。

特点：

结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
对内存需求较小
为不同的参数计算不同的自适应学习率
也适用于大多非凸优化 - 适用于大数据集和高维空间

SofaSofa数据科学社区 DS面试题库 DS面经

djpp123 2017-12-20 21:43

相关讨论

最速下降法与梯度下降法

nesterov’s momentum和momentum的区别？

Newton–Raphson和牛顿法区别?

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别

梯度上升算法是什么？

对于小批量随机剃度下降法(mini-batch SGD)，如何选择每批样本的数量？

随机梯度下降(sgd)的收敛问题

牛顿法到底是一阶优化算法还是二阶优化算法？

学习率不当会导致sgd不收敛吗？

为什么梯度的反方向是函数下降最快的方向？

随便看看

神经网络中的dense和sparse是什么意思？

matplotlib画图怎么确保横坐标和纵坐标的单位长度一致？

查看sklearn的线性回归系数的p value

怎么直观理解ROC AUC的概率统计意义？

向量梯度下降优化的最佳步长？