Adam and Eve相亲

一、SGD

1、随机梯度下降算法存在的问题之一，在形如下图：

在沿着X方向上移动时，损失函数的变化会很小但对Y轴方向上的变化会比较敏感，对像这种函数，SGD的表现为：

会得到这种'之'字形的过程，其原因是这类函数的梯度与最小值并不是成一条直线，导致会不断的来回波动，并且在X方向上的移动会很缓慢，这不是我们所希望的。并且这种情况在高维空间更加的普通，在神经网络中，参数的数量是非常巨大的，也就意味着有高维的参数空间，有不同的运动方向。

2、SGD的另一个问题是局部极小值点和鞍点。

当SGD找到局部极小值点时，因为此时的梯度为0，所以此时损失函数不再变化，被卡在这里。同时当SGD找到鞍点时，梯度仍然为0，也不再移动。局部极小值看起来是一个很大的问题，但在实际中，在高维参数中，鞍点时一个非常普遍的情况。在一亿个参数的空间，鞍点意味着损失函数在某些方向上会增加，某些方向上会减少，在高维空间中这会发生的非常频繁。但在局部极小值点中，沿任何一个方向，损失函数都会增加。

二、SGD+Momentum

1.SGD+Momentum

为了解决这个问题，提出给SGD加上一个动量向，这就是SGD+Momentum。

$\nu _{t+1} = \rho \nu _{t}+\Delta f(x_{t})$

$x_{t+1} = x_{t} - \alpha v_{t+1}$

它的原理很简单，把原来的速度 $V_{t}$ 乘上一个摩擦系数 $\rho$ 进行衰减，通常摩擦系数选择0.9再加上梯度，同时不再是往梯度方向上移动，而是沿着新的速度向量方向移动。

加上动量后的SGD的表现可以想象一下，假设有一个小球从山顶往下滚，球的速度会在下降时增加它的速度，那么在遇到鞍点或者局部极小值时，虽然此时没有梯度，但是球可能任然有速度，那么球就有可以冲过他们的可能，而不是卡在那里。

当拥有速度后，像'之'字形的移动会很快的抵消，减少在敏感方向上的移动，并且X方向上的速度会逐渐的增加，使X方向上的移动加快，在加上动量后能很好的解决SGD存在的问题。

2.SGD+Nesterov Momentum

传统的Monmentum取当前位置的梯度，再与速度向量相加生成新的前进向量，而Nesterov momentum 则是在令当前位置加上速度向量后求取梯度，再回退到原来的位置，然后把梯度和速度向量相加生成新的前进向量，再与当前位置相加。

$v_{t+1} = \rho v_{t} - \alpha \Delta f(x_{t}+v_{t})$

$x_{t+1} = x_{t}+v_{t+1}$ （其实在这里的式子里我是有一点疑问的， $\rho v_{t}$ 应该是加上 $\alpha \Delta f(x_{t}+v_{t}}})$ 的，所以 $\alpha$ 为负数？并且 $x_{t}$ 应该是减去 $v_{t+1}$ ,所以 $v_{t+1}$ 整个为负数？那么 $\rho$ 应该为负数而 $\alpha$ 为正数？）