本文主要将深度学习中是怎样来处理最优化问题的。
深度学习中,大部分问题最终都是计算最优化问题,最优化问题实际中就是最小化损失函数过程,而大部分计算最优化问题是通过梯度下降法来处理的。
首先来弄懂什么是梯度下降法:
最优化过程是通过不断迭代来使损失函数最小,每次迭代最优的方式是往最快减小的方向迭代,而梯度的概念就是变化最大的方向,所以是沿着负梯度方向去优化目标;
梯度的定义:是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模),数学公式如下:
而方向导数的定义:某一点在某一趋近方向上的导数值。
而导数的定义:自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限。直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率,数学表达式:
以上就解释了梯度下降法可以来处理最优化问题来。