学习率

Wij(l)=Wij(l)αWij(l)J(W,b)\begin{align} W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \end{align}

其中 α\textstyle \alpha 就是学习速率,学习率越大,学习速度越快,但是学习率太大的副作用是可能会跳过最低点,从而造成振荡。

比如图中的误差会剧烈抖动。

Last updated