一般对于凸问题,我们用SGD。那如果是非凸的目标函数还可以用SGD吗?
2个回答
其实神经网络基本上都是非凸的,但是很多情况下SGD照用不误。
对于非凸的情况,不管是GD还是SGD都不能保证收敛到全局最优,AdaGrad更好。
参考维基百科:https://en.wikipedia.org/wiki/Stochastic_gradient_descent#AdaGrad
SofaSofa数据科学社区DS面试题库 DS面经一般对于凸问题,我们用SGD。那如果是非凸的目标函数还可以用SGD吗?
其实神经网络基本上都是非凸的,但是很多情况下SGD照用不误。
对于非凸的情况,不管是GD还是SGD都不能保证收敛到全局最优,AdaGrad更好。
参考维基百科:https://en.wikipedia.org/wiki/Stochastic_gradient_descent#AdaGrad
SofaSofa数据科学社区DS面试题库 DS面经