AI疯狂进阶——梯度下降

本文作者专注于AI进阶算法,正在推出AI疯狂进阶之基础理论进阶篇,如有兴趣可持续关注我。

核心导读:

1.导数、偏导数、方向导数、梯度是什么关系?

2.梯度下降具体怎么实现的?

3.梯度下降有哪些弊端?


1.导数,偏导数,方向导数,梯度是什么关系?

在讲解梯度下降之前,需要先了解一些数学概念,因为这些概念很容易搞混淆,下面来梳理下这些概念之间的关系。

(1)导数

AI疯狂进阶——梯度下降

反映的是函数y=f(x)在某一点处沿x轴正方向的变化率。再强调一遍,是函数f(x)在x轴上某一点处沿着x轴正方向的变化率/变化趋势。直观地看,也就是在x轴上某一点处,如果f’(x)>0,说明f(x)的函数值在x点沿x轴正方向是趋于增加的;如果f’(x)<0,说明f(x)的函数值在x点沿x轴正方向是趋于减少的。

(2)偏导数

AI疯狂进阶——梯度下降

导数与偏导数本质是一致的,都是当自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限。直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。

(3)方向导数

AI疯狂进阶——梯度下降

在前面导 数和偏导数的定义中,均是沿坐标轴正方向讨论函数的变化率。那么当我们讨论函数沿任意方向的变化率时,也就引出了方向导数的定义,即:某一点在某一趋近方向上的导数值。

(4)梯度

AI疯狂进阶——梯度下降

梯度的提出只为回答一个问题:

函数在变量空间的某一点处,沿着哪一个方向有最大的变化率?

梯度定义如下:

函数在某一点的梯度是这样一个向量,它的方向与取得最大方向导数的方向一致,而它的模为方向导数的最大值。

这里注意三点:

1)梯度是一个向量,即有方向有大小;

2)梯度的方向是最大方向导数的方向;

3)梯度的值是最大方向导数的值。

最后总结下这几个概念的关系:

导数和偏导数都是求某一点沿着坐标轴正方向的瞬时变化率,但是导数只存在于一元函数中,而偏导数存在于多元函数中。方向导数则是某一点在某一趋近方向上的导数值,相比偏导数,求导的方向从坐标轴正方向扩展到任意方向。更进一步,梯度是方向导数中变化率最大的那个。在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率;在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向。


2.梯度下降具体怎么实现的?

在上面我们讲解了梯度的概念,我们知道对于多元函数,某一点上升最快的方向是沿着梯度方向,那么,通常我们要让损失函数越小越好,就可以沿着梯度反方向,这就是我们所说的梯度下降法。梯度下降法的数学表达如下:

AI疯狂进阶——梯度下降

其中是J关于Θ的一个函数,通常是损失函数,参数减去梯度意味着是朝着梯度反方向走,也就是朝着使损失函数J变小的方向走。α被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离,并且梯度下降法通常是运行多次,也就是一步一步慢慢靠近最优值,因为通常我们很难一步就能求解出最优解。在“凸优化”篇中我们说到神经网络通常是非凸优化,存在多个局部最小值,那么,学习率α不能太大也不能太小,太小的话,可能需要很长时间达到局部最小值,太大的话,会导致错过局部最小值。

AI疯狂进阶——梯度下降

下面我们来以一个多元函数来解释下梯度下降的过程:

AI疯狂进阶——梯度下降

我们假设初始的起点为:

AI疯狂进阶——梯度下降

初始的学习率为:

AI疯狂进阶——梯度下降

函数的梯度为:

AI疯狂进阶——梯度下降

进行多次迭代:

AI疯狂进阶——梯度下降

我们发现,已经基本靠近函数的最小值点

AI疯狂进阶——梯度下降


3.梯度下降有哪些弊端?

(1)不能保证收敛到全局最优解,如下图,可以看出,初始点也会对最终的结果有影响,这也是为什么现在神经网络中会出现非常多不同的初始化算法的原因。

AI疯狂进阶——梯度下降

(2)鞍点。鞍点因形状像马鞍而得名。鞍点处,梯度在一个方向(X)上是极小值,在另一个方向上则是极大值。可以看到在中间那一块平坦区域,梯度接近0,就会造成收敛于最小值的错觉。

AI疯狂进阶——梯度下降

(3)梯度消失和爆炸。下一篇中会详解梯度消失和爆炸以及如何解决这些问题,如果有兴趣,可以持续关注我。


4.小结

在神经网绍的训练中,我们通常不关心能否找到精确的全局最优解,我们仅仅是去降低代价函数的值,使其能够获得较好的泛化性能。但我们并不是不想获得全局最优解,只是理论分析神经网络算法是一个极其困难的任务。总而言之,深度学习是实践的产物,还缺乏强有力的理论支持,很多科研人员仍然对其保持着怀疑态度,如何理智地评估深度学习算法性能边界仍然是机器学习中一个重要的目标。相比于其他机器学习算法而言,神经网络更像是一个黑盒,神经网络中存在着大量的训练技巧,这也使得训练神经网络更像是艺术而非科学。


分享到:


相關文章: