想问一下,这里的步长为什么不是2倍这个东西?
我的想法是这一部分大于0。
花书上的结果是怎么算出来的啊。
1个回答
最佳步长是找到一个步长$\epsilon^*$指能够最小化
$$f(x^{(0)})-\epsilon g^Tg+\frac{1}{2}\epsilon^2 g^THg$$
上面的式子就是一个一元二次表达式吧,对于$a\epsilon^2 + b\epsilon + c$这样的式子,最优解就是二次方程的对称轴
$$-\frac{b}{2a}=-\frac{-g^Tg}{2\frac{1}{2}g^THg}=\frac{g^Tg}{g^THg}$$
步长最优化的梯度下降又叫做最速下降法,steepest descent method。
SofaSofa数据科学社区DS面试题库 DS面经