在模型优化算法中,nesterov’s momentum和momentum的区别?最好能够通俗易懂一点。谢谢!
1个回答
左边是经典的momentum,右边是nestrov momentum
经典的momentum,可以参考我另一个回答优化算法中momentum是什么意思?
两者区别是经典的momentum是在当前点($X_i$)计算gradient step;而nesterov momentum是想在下一个迭代点$X_{i+1}$计算gradient step,两步并一步向前跨,当然这是无法做到的,所以就用momentum step后的点来近似实际的$x_{i+1}$。也就是图中说的“lookahead”,“前瞻点”。这样做的好处就是加速收敛。
参考链接http://cs231n.github.io/neural-networks-3/#sgd