梯度下降法-Gradient Descent

合集下载

机器学习中常见的几种优化方法

机器学习中常见的几种优化方法阅读目录1. 梯度下降法（Gradient Descent）2. 牛顿法和拟牛顿法（Newton's method & Quasi-Newton Methods）3. 共轭梯度法（Conjugate Gradient）4. 启发式优化方法5. 解决约束优化问题——拉格朗日乘数法我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题，比如每个企业和个人都要考虑的一个问题“在一定成本下，如何使利润最大化”等。

最优化方法是一种数学方法，它是研究在给定约束之下如何寻求某些因素(的量)，以使某一(或某些)指标达到最优的一些学科的总称。

随着学习的深入，博主越来越发现最优化方法的重要性，学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解，比如我们现在学习的机器学习算法，大部分的机器学习算法的本质都是建立优化模型，通过最优化方法对目标函数（或损失函数）进行优化，从而训练出最好的模型。

常见的最优化方法有梯度下降法、牛顿法和拟牛顿法、共轭梯度法等等。

回到顶部1. 梯度下降法（Gradient Descent）梯度下降法是最早最简单，也是最为常用的最优化方法。

梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。

一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。

梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。

最速下降法越接近目标值，步长越小，前进越慢。

梯度下降法的搜索迭代示意图如下图所示：牛顿法的缺点：（1）靠近极小值时收敛速度减慢，如下图所示；（2）直线搜索时可能会产生一些问题；（3）可能会“之字形”地下降。

从上图可以看出，梯度下降法在接近最优解的区域收敛速度明显变慢，利用梯度下降法求解需要很多次的迭代。

在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。

随机梯度下降法

随机梯度下降法　在求解机器学习算法的模型参数，即⽆约束优化问题时，梯度下降（Gradient Descent）是最常采⽤的⽅法之⼀，另⼀种常⽤的⽅法是最⼩⼆乘法。

这⾥就对梯度下降法做⼀个完整的总结。

1. 梯度在微积分⾥⾯，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。

⽐如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。

对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0)，如果是3个参数的向量梯度，就是(∂f/∂x, ∂f/∂y，∂f/∂z)T,以此类推。

那么这个梯度向量求出来有什么意义呢？他的意义从⼏何意义上讲，就是函数变化增加最快的地⽅。

具体来说，对于函数f(x,y),在点(x0,y0)，沿着梯度向量的⽅向就是(∂f/∂x0, ∂f/∂y0)T的⽅向是f(x,y)增加最快的地⽅。

或者说，沿着梯度向量的⽅向，更加容易找到函数的最⼤值。

反过来说，沿着梯度向量相反的⽅向，也就是 -(∂f/∂x0, ∂f/∂y0)T的⽅向，梯度减少最快，也就是更加容易找到函数的最⼩值。

2. 梯度下降与梯度上升在机器学习算法中，在最⼩化损失函数时，可以通过梯度下降法来⼀步步的迭代求解，得到最⼩化的损失函数，和模型参数值。

反过来，如果我们需要求解损失函数的最⼤值，这时就需要⽤梯度上升法来迭代了。

梯度下降法和梯度上升法是可以互相转化的。

⽐如我们需要求解损失函数f(θ)的最⼩值，这时我们需要⽤梯度下降法来迭代求解。

但是实际上，我们可以反过来求解损失函数 -f(θ)的最⼤值，这时梯度上升法就派上⽤场了。

下⾯来详细总结下梯度下降法。

3. 梯度下降法算法详解3.1 梯度下降的直观解释⾸先来看看梯度下降的⼀个直观的解释。

⽐如我们在⼀座⼤⼭上的某处位置，由于我们不知道怎么下⼭，于是决定⾛⼀步算⼀步，也就是在每⾛到⼀个位置的时候，求解当前位置的梯度，沿着梯度的负⽅向，也就是当前最陡峭的位置向下⾛⼀步，然后继续求解当前位置梯度，向这⼀步所在位置沿着最陡峭最易下⼭的位置⾛⼀步。

《统计学习方法》梯度下降的两种应用场景

《统计学习⽅法》梯度下降的两种应⽤场景这⼏天在看《统计学习⽅法》这本书，发现梯度下降法在感知机等机器学习算法中有很重要的应⽤，所以就特别查了些资料。

⼀.介绍梯度下降法（gradient descent）是求解⽆约束最优化问题的⼀种常⽤⽅法，有实现简单的优点。

梯度下降法是迭代算法，每⼀步需要求解⽬标函数的梯度向量。

⼆.应⽤场景1.给定许多组数据（x i, y i），x i （向量）为输⼊，y i为输出。

设计⼀个线性函数y=h（x）去拟合这些数据。

2.感知机：感知机（perceptron）为⼆类分类的线性分类模型。

输⼊为实例的特征向量，输出为实例的类别，取+1 和 -1 ⼆值。

下⾯分别对这两种应⽤场景进⾏分析。

1.对于第⼀种场景:既然是线性函数，在此不妨设为 h(x) = w0*x0 + w1*x1。

此时我们遇到的问题就是如何确定w0和w1这两个参数，即w=（w0，w1）这个向量。

既然是拟合，则拟合效果可以⽤平⽅损失函数：E(w)=∑ [ h(x)- y ] ^2 / 2 来衡量。

其中w是权重⼆维向量，x是输⼊⼆维向量，x和y都是训练集的数据，即已知。

⾄于后⾯除于2只是为了之后的推导过程中对E求导时候可以消除系数，暂时可以不管。

因此该问题变成了求E(w)最⼩值的⽆约束最优化问题2.对于第⼆种场景:假设输⼊空间(特征向量)为x，输出空间为y = {+1, -1},由输⼊空间到输出空间的如下函数f(x) = sign(w · x + b) w∈R n其中 w 叫做权值或者权值向量, b叫做偏振。

w · x 表⽰向量w和x的点积感知机sign(w · x + b)的损失函数为 L(w, b) = -∑y i(w · x i + b) x ∈M, M为误分类点集合。

因此该问题变成了求L(w, b)最⼩值的⽆约束最优化问题三.梯度下降⽅法梯度其实就是⾼数求导⽅法，对E这个公式针对每个维数（w0，w1）求偏导后的向量▽E(w)=（∂E/∂w0,∂E/∂w1）1. 对于第⼀种场景对E这个公式针对每个维数（w0，w1）求偏导后的向量▽E(w)=（∂E/∂w0,∂E/∂w1）梯度为最陡峭上升的⽅向，对应的梯度下降的训练法则为： w=w-η▽E(w) 这⾥的η代表学习速率，决定梯度下降搜索中的步长。

梯度下降算法损失函数

梯度下降算法损失函数梯度下降算法（Gradient Descent Algorithm）是一种用于迭代更新模型的参数的优化方法，通常应用于机器学习中，它的主要作用是求出最小值点（损失函数最小）。

梯度下降的出发点是损失函数，因此我们需要先理解什么是损失函数。

在机器学习中，我们通常使用的损失函数有很多，如均方误差（Mean Square Error, MSE）、对数损失函数（Log Loss）、交叉熵损失函数（Cross Entropy Loss）等。

这些损失函数都是用来衡量模型预测结果与真实结果之间的差距，我们通过最小化损失函数来选择最优的模型参数。

以线性回归为例，均方误差损失函数的定义如下：$J(\theta)= \frac1{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$其中，$\theta$为模型参数，$h_{\theta}(x)$为预测函数，$x$和$y$分别表示输入和输出数据，$m$为样本数量。

我们的目标是找到一组参数$\theta$，使得损失函数$J(\theta)$最小。

梯度下降算法的核心思想是：从当前点出发，沿着梯度的反方向对参数进行迭代更新，直到达到损失函数的最小值点。

梯度下降算法包含两种迭代方式：批量梯度下降（Batch Gradient Descent）和随机梯度下降（Stochastic Gradient Descent）。

批量梯度下降批量梯度下降的核心思想是，在每个迭代步骤中，通过在整个训练集上计算损失函数的梯度，对所有参数进行更新。

梯度的计算可以通过对损失函数$J(\theta)$对每个参数$\theta_j$的导数进行求解得到：其中，$x_j^{(i)}$表示第$i$个样本的第$j$个特征值，$y^{(i)}$表示第$i$个样本的输出值，$h_{\theta}(x^{(i)})$是预测结果。

同时，我们还要设定一个学习率$\alpha$来控制学习的速率，学习率越小，收敛速度越慢，模型精度越高，学习率越大，收敛速度越快，但可能会错过最优点。

下降梯度的概念

下降梯度的概念下降梯度（gradient descent）是机器学习中一种常见的优化算法，用于最小化函数的损失（loss）或成本函数（cost function）。

在许多机器学习算法中，我们的目标是找到最优参数，使得模型对数据的拟合程度最好。

下降梯度算法通过更新模型参数的方法，逐步接近最优解。

下降梯度算法的基本思想是，通过沿着当前参数的梯度反方向，来更新参数的值，以使损失函数逐渐减小。

梯度是一个向量，其方向与损失函数最快下降的方向一致，大小代表了下降的速率。

通过迭代地更新参数，直到达到收敛条件，算法就可以找到局部最优解或全局最优解。

下降梯度算法有两种主要的变体：批量梯度下降（batch gradient descent）和随机梯度下降（stochastic gradient descent）。

在批量梯度下降中，每次更新参数时使用所有样本的梯度，对于大规模数据集来说，计算量较大。

而随机梯度下降每次更新参数只使用一个样本的梯度，因此计算速度更快，但可能会引入更多的噪音。

为了兼顾两者的优点，还有一种折中的方法，即小批量梯度下降（mini-batch gradient descent），每次更新参数使用一小部分样本的梯度。

下降梯度算法的具体步骤如下：1. 初始化模型参数，通常是随机选择一个初始值。

2. 计算当前参数值对应的损失函数的梯度。

梯度是一个向量，其每个元素对应一个参数，反映了损失函数在每个参数上的变化趋势。

3. 根据学习率（learning rate）选择一定的步长，沿着梯度方向更新参数。

学习率控制每次更新的大小，过大可能导致错过最优解，过小可能导致收敛速度过慢。

4. 重复步骤2和步骤3，直到达到停止迭代的条件。

停止迭代的条件可以是达到一定的迭代次数，或者损失函数的变化小于某个阈值，或者梯度的大小小于某个阈值等。

在使用下降梯度算法时，有一些注意事项需要考虑：1. 学习率的选择很重要。

学习率过大可能导致算法不收敛，学习率过小可能导致收敛速度过慢。

steepest-descent method

梯度下降法是一种常用的优化算法，它在机器学习领域得到了广泛的应用。

本文将从梯度下降法的定义、原理、算法流程、优化技巧和应用案例等方面进行介绍，希望能够为读者对梯度下降法有一个全面的了解。

一、梯度下降法的定义梯度下降法（Gradient Descent）是一种用于求解最优化问题的迭代算法。

在机器学习中，梯度下降法被广泛应用于训练各种模型，如线性回归、逻辑回归、神经网络等。

其核心思想是通过不断更新参数的数值，使得目标函数（损失函数）的值不断减小，从而找到最优解。

二、梯度下降法的原理梯度下降法的原理基于多元函数微分的概念，即通过对目标函数的导数进行计算，找到目标函数在当前点的梯度方向，然后沿着梯度的负方向进行参数的调整，从而使目标函数的值逐渐减小。

这一过程可以理解为在参数空间中寻找一条能够使得目标函数值最小化的路径。

三、梯度下降法的算法流程梯度下降法的算法流程可以简单描述为以下几个步骤：1. 初始化参数：对模型的参数进行初始化，可以采用随机初始化或者其他合适的方法。

2. 计算梯度：根据当前的参数值，计算目标函数的梯度方向，即目标函数对参数的偏导数。

3. 更新参数：沿着梯度的负方向对参数进行调整，使得目标函数的值减小。

参数的更新通常按照如下公式进行： \[ \theta = \theta -\alpha \cdot \nabla J(\theta) \] 其中，$\theta$为参数向量，$\alpha$为学习率，$\nabla J(\theta)$为目标函数的梯度。

4. 判断停止条件：重复步骤2和步骤3，直到达到某个停止条件，比如目标函数的值收敛到某个阈值，或者参数的更新变化小于某个阈值。

四、梯度下降法的优化技巧梯度下降法在实际应用中存在一些问题，比如学习率的选择、局部最小值的问题、收敛速度等。

为了解决这些问题，研究者提出了许多优化技巧，包括但不限于：1. 学习率衰减：随着迭代次数的增加，逐渐减小学习率，可以使得参数更新幅度逐渐减小，有利于收敛。

梯度下降法函数无法求导

梯度下降法引言梯度下降法(Gradient Descent)是一种优化算法，用于寻找函数的极小值点。

它是机器学习和深度学习中最常用的优化方法之一，应用广泛且有效。

但是，有时候我们会遇到一些函数无法求导的情况。

本文将探讨在函数无法求导的情况下，如何使用梯度下降法。

函数无法求导的情况在梯度下降法中，我们通常需要计算目标函数的梯度，即函数对各个自变量的偏导数。

然而，并非所有的函数都能够求导。

函数无法求导的情况包括但不限于以下几种情况： 1. 函数在某些点上不连续，导致无法定义导数。

2. 函数具有尖点或者拐点，导致导数不存在。

3. 函数是离散的，导致无法定义导数。

4. 函数是非解析的，如计算机图像、自然语言等产生的函数。

如果我们希望使用梯度下降法优化这类函数，就需要另辟蹊径。

有限差分法有限差分法(Finite Difference Method)是一种用于数值求导的方法。

通过近似计算函数在某点的导数，从而解决了函数无法求导的问题。

有限差分法的基本思想是：利用函数在某点附近的函数值，通过差商来逼近导数的值。

我们知道，函数的导数可以表示为极限的形式：有限差分法通过选择合适的∆x（步长），将极限转化为有限差商的形式：其中，f(x+∆x)和f(x)是函数在不同点的取值。

当我们无法对函数进行解析，无法得到函数的导数表达式时，可以使用有限差分法来近似计算函数的导数。

梯度下降法与有限差分法的结合在函数无法求导的情况下，我们可以借助有限差分法来近似计算目标函数的梯度，从而使用梯度下降法进行优化。

具体步骤如下： 1. 选择合适的步长∆x。

2. 对目标函数f(x)进行采样，计算得到f(x+∆x)和f(x)。

3. 使用有限差分法计算梯度的近似值：∆f/∆x ≈ (f(x+∆x) - f(x))/∆x。

4. 根据梯度的近似值，更新自变量的取值：x_new = x -α*(∆f/∆x)，其中α为学习率。

在上述步骤中，步长∆x的选择很重要。

matlab实现梯度下降法（GradientDescent）的一个例子

matlab 实现梯度下降法（GradientDescent ）的⼀个例⼦在此记录使⽤matlab 作梯度下降法(GD)求函数极值的⼀个例⼦：问题设定： 1. 我们有⼀个n 个数据点，每个数据点是⼀个d 维的向量，向量组成⼀个data 矩阵X ∈R n ×d ，这是我们的输⼊特征矩阵。

2. 我们有⼀个响应的响应向量y ∈R n 。

3. 我们将使⽤线性模型来fit 上述数据。

因此我们将优化问题形式化成如下形式：arg min w f (w )=1n ‖y −¯X w ‖22 其中¯X =(1,X )∈R n ×(d +1) and w =(w 0,w 1,...,w d )⊤∈R d +1 显然这是⼀个回归问题，我们的⽬标从通俗意义上讲就是寻找合适的权重向量w ，使得线性模型能够拟合的更好。

预处理： 1. 按列对数据矩阵进⾏最⼤最⼩归⼀化，该操作能够加快梯度下降的速度，同时保证了输⼊的数值都在0和1之间。

x i 为X 的第i 列。

z ij ←x ij −min (x i )max (x i )−min (x i ) 这样我们的优化问题得到了转化:arg minu g (w )=1n ‖y −¯Z u ‖22 2. 考虑对⽬标函数的Lipschitz constants 进⾏估计。

因为我们使⽤线性回归模型，Lipschitz constants 可以⽅便求得，这样便于我们在梯度下降法是选择合适的步长。

假如⾮线性模型，可能要⽤其他⽅法进⾏估计（可选）。

问题解决：使⽤梯度下降法进⾏问题解决，算法如下：我们可以看到，这⾥涉及到求⽬标函数f 对x k 的梯度。

显然在这⾥，因为是线性模型，梯度的求解⼗分的简单：∇f (x k )=−2n ¯X ⊤(y −¯X u k ) 进⾏思考，还有没有其他办法可以把这个梯度给弄出来？假如使⽤Tensorflow ，Pytorch 这样可以⾃动保存计算图的东东，那么梯度是可以由机器⾃动求出来的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. 梯度下降法 (Gradient descent) 梯度下降法，通常也叫最速下降法(steepest descent)，基于这样一个事实：如果实值函数 f(x) 在点x 处可微且有定义，那么函数 f(x) 在 x 点沿着负梯度(梯度的反方向)下降最快。

假设x 是一个向量，考虑f(x) 的泰勒展开式：
)(,
)()())(()()()(12是方向向量为步长标量；其中k k k k k k k k k k k k k k k k d d x x x x x f x f x o x x f x f x x f αα=-=∆∆∇+≈∆+∆∇+=∆++
如果想要函数值下降，则要()||()||||||cos (),0k k k k k k f x x f x x f x x ∇∆=∇⋅∆⋅<∇∆><。

如果想要下降的最快，则需要k k x x f ∆∇)(取最小值，即cos (),1k k f x
x <∇∆>=-，也就是说，此时x 的变化方向(k x ∆的方向)跟梯度)(k x f ∇的方向恰好相反。

那么步长如何选取呢？的确，很难选择一个合适的固定值，如果较小，会收敛很慢；如果较大，可能有时候会跳过最优点，甚至导致函数值增大；因此，最好选择一个变化的步长，
在离最优点较远的时候，步长大一点，离最优点较近的时候，步长小一点。

k α小 k α大 k α变化的
一个不错的选择是||)(||k k x f ∇=αα，于是牛顿迭代公式变为：)
(1k k k x f x x ∇-=+α，此时α是一个固定值，称为学习率，通常取0.1，该方法称为固定学习率的梯度下降法。

另外，我们也可以通过一维搜索来确定最优步长。

1.1 梯度下降法的一般步骤：
Step1 给定初始点0x , 迭代精度0>ε，k =0.
Step3 计算最优步长 )
(min arg k k k d x f ααα+=；
Step4 更新迭代点k k k k d x x α-=+1，令1:+=k k , 转step2。

初始点的选取：
设
),...,(,01,00n x x x =，对每一个分量分别独立取值),0(~2,0i i N x σ
梯度下降法简单，计算量小，仅仅需要求一阶导数，对初始点也没有特殊要求，具有整体收敛性。

采用精确线搜索的梯度下降法的收敛速度为线性。

精确线搜索满足的一阶必要条件，得0)()(1=∇=+∇+k k k T k k k d x f d d x f α，由最速下
降法得，)(k k x f d -∇=，因此有0)()(11=-=∇∇-++k k k k d d x f x f ，即：相邻两次的搜索方向是相互直交的（投影到二维平面上，就是锯齿形状了）。

最后，我们讨论一个问题，这个所谓的最速下降法真的是“最快速”的吗？其实，它只是局部范围内具有最快速性质,对整体求解过程而言，它的下降非常缓慢。

例如, 我们来看一个常被用来作为最优化算法的
performance test 函数：Rosenbrock 函数
222)(100)1(),(x y x y x f -+-=，它在
点 (1,1) 处取得最小值0。

此函数具有狭窄弯曲的
山谷，最小值(1,1) 就在这些山谷之中，并且谷底
很平。

优化过程是之字形的向极小值点靠近，速
度非常缓慢（"之字型"下降，越靠近极小点下降
越缓慢）。

1.2 批量梯度法 VS 随机梯度法
梯度下降法每次更新都要对全体样本重新计算整个梯度，这种方法叫做批量梯度法(Batch Gradient Descent)，当样本点很多时，这种方法速度很慢；于是，人们不再追求精确计算梯度方向，而是采取一种近似计算的思想，每次只利用一个训练样本计算梯度，来更新x ，这种方法叫做随机梯度法（Stochastic Gradient Descent ）。

需要特别注意的一点是，随机梯度法最后的最优值不是计算过程中的任何一个k x (注意不是最后一个k x 哦), 而是计算过程
中所有的k x 平均值(各分量分别求平均值)，即∑==N
k k x N x 1*
1。

通常，SGD 能比BGD 更快地收敛到最优点，因此更适合大数据的计算。

然而，对SGD 而言，选择一个合适的终止条件是比较困难的。

一个可选的办法是用validation, 在验证集上测试当前参数的效果，如果效果可以，就保存起来，当很长一段时间都是此效果的话那么就迭代停止。