正则化函数

带有正则化参数意味着每一次权重更新的时候都会添加一个衰减项,此处看代码更加直观: link->weight -= learningRate * (link->accErrorDer + regularizationRate * regulDer) / link->numAccumulatedDers;

这里的regularizationRate * regulDer就是正则率乘以正则化函数的导数。

L1

L1可以将权值一直衰减到0,因此它能将权值矩阵变稀疏。

L2

L2对大的数衰减大,对小的数衰减小,因此它不是那么容易将权重衰减到0,但是它可以获得一个比较均匀的权值矩阵。

Last updated