SGD with clipping是什么意思?sgd是随机梯度下降,不太了解with clipping这个术语。
2个回答
clipping是对梯度进行剪裁,也就是把每次计算的梯度限制在$[-d, d]$的范围内,如果计算得到的梯度大于$d$,就取$d$;如果小于$-d$,就取$-d$。$d$是自己设置的。
这样的目的主要是防止梯度爆炸。
SofaSofa数据科学社区DS面试题库 DS面经一般是叫做gradient clipping,就是把绝对值太大的梯度“修剪”下。
RNN如果没有gradient clipping,训练到最后得到的都是NaN了。
SofaSofa数据科学社区DS面试题库 DS面经