ML Optimizer

导言

优化算法（Optimizer）目标是优化（最小化或最大化）一个损失函数，以调整模型参数，使模型在训练数据上表现得更好。
在深度学习中，优化算法是训练神经网络时至关重要的组成部分，它们决定了模型参数如何更新以最小化损失。
所以梯度下降、动量法、随机梯度下降、RMSprop、Adam、AdamW、LAMB等算法都是优化算法。

Gradient Descent （GD）¶

梯度下降法，最基本的优化方法，沿着负梯度的方向更新参数，

x += - learning_rate * dx //学习率*梯度

梯度直接更新位置。梯度下降法相关的优化方法容易产生震荡，且容易被困在鞍点，迟迟不能到达全局最优值。

动量法¶

梯度先更新速度然后更新位置。

v = mu * v - learning_rate * dx # 梯度影响速度
x += v # 速度决定位置

可以加快收敛并减小震荡.

Stochastic Gradient Descent （SGD）随机¶

对于问题梯度下降每一次迭代都需要出所有的梯度，即每一次算n个梯度，进行下面的迭代而随机梯度下降，每一次选一个函数计算梯度，然后迭代，减少了计算量，而且一般收敛效果更好。

Root Mean Square prop (RMSprop)¶

由于指数加权平均，各数值的加权而随时间而指数式递减，越近期的数据加权越重，但较旧的数据也给予一定的加权。

RMSprop采用梯度平方的指数加权平均。 $$cache = decay_rate * cache + (1 - decay_rate) * dx^2 $$ $\(x += - learning\_rate * \frac{dx }{\sqrt{cache}+eps})$\)

Adaptive Moment estimation (Adam)¶

为解决梯度下降 GD 中固定学习率带来的不同参数间收敛速度不一致的弊端，AdaGrad 和 RMSprop 诞生出来，为每个参数赋予独立的学习率。计算梯度后，梯度较大的参数获得的学习率较低，反之亦然。

此外，为避免每次梯度更新时都独立计算梯度，导致梯度方向持续变化，Momentum 将上一轮梯度值加入到当前梯度的计算中，通过某种权重对两者加权求和，获得当前批次参数更新的更新值。

Adam 结合了这两项考虑，既为每一个浮点参数自适应性地设置学习率，又将过去的梯度历史纳入考量

$g^t$表示t时刻梯度

AdamW¶

Adam 虽然收敛速度快，但没能解决参数过拟合的问题。具体的举措，是在最终的参数更新时引入参数自身：

LAMB¶

在使用 Adam 和 AdamW 等优化器时，一大问题在于 batch size 存在一定的隐式上限，一旦突破这个上限，梯度更新极端的取值会导致自适应学习率调整后极为困难的收敛，从而无法享受增加的 batch size 带来的提速增益。LAMB 优化器的作用便在于使模型在进行大批量数据训练时，能够维持梯度更新的精度。具体来说，LAMB 优化器支持自适应元素级更新（adaptive element-wise updating）和准确的逐层修正（layer-wise correction）

参考文献¶

https://blog.csdn.net/weixin_41089007/article/details/107007221

https://www.jianshu.com/p/e17622b7ffee

https://www.jiqizhixin.com/articles/2018-07-03-14