Q learning的迭代过程需要用到Bellman equation。Bellman equation其中一个变量是学习率,但是这个式子本身并没有涉及到梯度或者梯度下降的概念,为什么会有学习率呢?
1个回答
学习率和梯度下降算法并没有直接关系。学习率是指模型根据新样本更新模型参数的“速率”。
比如Q-learning里就是根据一个新的数据点(新的行为和奖励),来更新Q-table里的数值;如果学习率太大,新样本的权重就太大,忽略了历史数据的作用。
SofaSofa数据科学社区DS面试题库 DS面经
谢谢
-
wxjjnss
2018-12-08 14:35