梯度下降法[优质ppt]

合集下载

《梯度下降法》课件

小批量梯度下降法在大规模数据集上表现良好，能够快速找到一个接近全局最优解的解。
随机梯度下降法（Stochastic Gradient Descent）
总结词
计算量最小，收敛速度最快，适用于小数据集
详细描述
由于每次迭代只使用一个样本计算梯度，计算量最小，因此随机梯度下降法的收敛速度最快。
详细描述
停止条件
迭代更新会一直进行直到满足某个停止条件，如达到预设的最大迭代次数、达到预设的精度要求或者梯度值足够小等。
03
梯度下降法的分类
批量梯度下降法（Batch Gradient Descent）
总结词
计算量大，收敛速度慢，适用于大数据集
详细描述
由于每次迭代都需要使用整个数据集，计算量大，导致收敛速度较慢。
发展方向：
在此添加您的文本16字
结合其他优化算法：研究如何将梯度下降法与其他优化算法（如牛顿法、拟牛顿法等）结合，以提高搜索效率。
在此添加您的文本16字
自适应学习率：研究如何设计自适应学习率策略，以更好地处理不同阶段的优化问题。
在此添加您的文本16字
挑战：
在此添加您的文本16字
高维优化：在高维参数空间中，梯度下降法可能会遇到维度诅咒问题，需要研究有效的降维或正则化策略。
利用前一次的梯度方向来指导当前步的搜索方向，加速收敛并减少震荡。
公式表达
v = μ * v - lr * gradient
参数解释
v是动量，μ是动量系数，lr是学习率，gradient是当前点的梯度。
Adagrad、RMSprop和Adam优化算法
Adagrad
针对不同参数自适应调整学习率，对稀疏数据有较好的效果。

梯度下降法神经网络控制教材(第三版)

前向传播
将输入数据通过神经网络得到输出结果的过程，用于计算损失函数值。
02
反向传播
根据损失函数对神经网络参数的梯度，调整神经网络参数的过程，以最小化损失函数。
参数更新策略
01 批量梯度下降
使用整个训练集计算参数的梯度，更新参数。
02 小批量梯度下降
使用小批量数据计算参数的梯度，更新参数，可以加速训练并减少计算资源消耗。
计算损失函数关于权重和偏置的梯度
01
在每次迭代中，计算当前权重和偏置下的损失函数梯度。
更新权重和偏置
02
根据计算出的梯度，沿着负梯度的方向更新权重和偏置。
迭代更新
03
重复上述步骤，直到满足停止条件（如达到预设的最大迭代次
数或损失函数的值小于预设阈值）。
梯度下降法的收敛性分析
01 收敛速度
梯度下降法的收敛速度取决于学习率的大小。学习率过大可能导致算法收敛到局部最小值或鞍点，而学习率过小可能导致算法收敛速度缓慢。
详细描述
控制参数和优化目标函数的选择对无人机飞行控制的效果有很大的影响。在梯度下降法中，需要根据具体问题选择合适的控制参数和优化目标函数，以使得无人机能够更好地适应不同的飞行环境和任务需求。同时，还需要考虑控制参数之间的耦合关系和约束条件等因素，以避免出现
07
总结与展望
总结
梯度下降法神经网络控制教材(第三版)系统地介绍了神经网络的基本原理、训练方法、优化技巧以及在控制
02 局部最小值和全局最小值
梯度下降法只能找到局部最小值，而非全局最小值。在某些情况下，算法可能陷入局部最小值，而非全局最优解。
03 初始点选择
初始权重和偏置的选择对算法的收敛结果有影响。不同的初始点可能导致算法收敛到不同的局部最小值。

梯度下降法

hx H (q 2 q 2 q 2 q 2 ) H 2(q q q q ) h 0 1 2 3 Z 1 3 0 2 x X h R * H h hy H X 2(q1q2 q0 q3 ) H Z 2(q2 q3 q0 q1 ) hy H 2(q q q q ) H (q 2 q 2 q 2 q 2 ) h h 1 3 0 2 Z 0 1 2 3 z z X
Q q0
*
q1
q2
q3
T

（二）参数定义、坐标系定义如果不存在误差那么 a=Q ⊕G ⊕Q* h=Q ⊕H⊕Q* 实际上是不相等的。 H是参考坐标系下地磁场 G是参考坐标系下重力加速动参考坐标系：X轴对应北；Y轴对应西；Z轴对应天机体坐标系：初始与参考坐标同向 T 则： G 0 0 1

为地磁场与测量的磁场的偏差
2、由于相减的向量是单位向量，∆很小时，|∆|就相
当于角度。
ax 2(q1q3 q0 q2 ) ax 2(q q q q ) a a R * G a a 2 3 0 1 y y 2 2 2 2 a q q q q 1 2 3 az z 0
4hy H z q3 4hz H x q0 4hz H z q2
f 4ax q1 4a y q2 4az q3 4hx H x q3 4hx H z q1 4hy H x q0 q3
4hy H z q2 4hz H x q1 4hz H z q3
有了梯度，剩下的就是确定步长r 确定步长是梯度下降法的核心。步长未必是一成不变

梯度下降

2017/12/10
10
最速下降法
2017/12/10
11
最速下降法
Do you remember Hessian matrix?
2017/12/10
12
原来如此简单~~~
2017/12/10
13
最速下降法
王世雄
2017/12/10
1
优化问题的表示
2017/12/10
2
公式推导的过程
2017/12/10
3为什么加系数α1数据规范化在面对多维特征问题的时候，我们要保证这
些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。 2）常用的学习率： 0.01，0.03，0.1，0.3，1，3，10
2017/12/10
7
梯度下降法
α的确定？
要求f(x) = x2的最小值
x(0)=5 x(1) = x(0) - α ▽f(x)=5-α•2•5 f(x(1) ) = (5-α•2•5)2 对f(x(1) )求导（令其为0）
α= 0.5
2017/12/10
8
梯度下降法
2017/12/10
9
最速下降法
2017/12/10
4
举个简单例子来理解
2017/12/10
5
梯度下降法
2017/12/10
6
梯度下降法
假设要求f(x) = x2的最小值
初始点为x(0)=5
根据梯度下降法 x(1) = x(0) - α ▽f(x)=5-α•2•5 显然f(x)的最小值为 x = 0 但是 ①不加α 时 x(1) = -5 ②α = 0.5 x(1) = 0 ③α = 0.01 x(1) = 4 那么α该怎么选取呢？

梯度下降法——精选推荐

梯度下降法
梯度下降法(gradient descent)或最速下降法(steepest descent)是求解⽆约束最优化问题的⼀种最常⽤的⽅法。

梯度下降法是迭代算法，每⼀步需要求解⽬标函数的梯度向量。

假设f(x)是R n上具有⼀阶连续偏导数的函数，要求解的⽆约束最优化问题是
x*表⽰⽬标函数f(x)的极⼩点。

提梯度下降法是⼀种迭代算法。

选取适当的初值x(0)，不断迭代，更新x值，进⾏⽬标函数的极⼩化，直到收敛。

由于负梯度⽅向是使函数值下降最快的⽅向，在迭代的每⼀步，以负梯度⽅向更新x的值，从⽽达到减少函数值的⽬的。

由于f(x)具有⼀阶连续偏导数，若第k次迭代值为x(k)，则可将f(x)在x(k)附近进⾏⼀阶展泰勒开：
这⾥，为f(x)在x(k)的梯度。

求出第k+1次迭代值x(k+1)：
其中，p k是搜索⽅向，取负梯度⽅向，λk是步长，由⼀维搜索确定，即λk使得：
梯度下降算法如下：
输⼊：⽬标函数f(x)，梯度函数，计算精度ε；
输出：f(x)的极⼩点x*
（1）取初值x(0)∈R n ，置k=0
（2）计算f(x(k))
（3）计算梯度g k=g(x(k)),当||g k||<ε时，停⽌迭代，令x*=x k；否则，令p k=-g(x(k))，求λk，使
（4）置x(k+1)=x(k)+λk p k，计算f(x(k+1))
当||f(x(k+1))-f(x(k))||<ε或||x(k+1)-x(k)||<ε时，停⽌迭代，令x*=x(k+1)
（5）否则，置k=k+1,转（3）。

梯度下降法原理

梯度下降法原理
梯度下降法是一种优化算法，主要用于寻找函数的最小值。

它的基本原理是通过不断迭代更新参数，从而逐步接近函数的最小值点。

1. 初始化参数：选择一个初始点作为起始点，即确定函数的初始参数。

2. 计算梯度：在当前参数点处，计算函数的梯度。

梯度是函数在某一点的偏导数，表示函数在该点上升最快的方向。

3. 更新参数：根据梯度的信息，更新参数点。

具体更新方法有多种，最常见的是通过参数点减去学习率乘以梯度的方法进行更新。

4. 判断收敛：判断当前参数点是否满足收敛条件。

可以通过设定一个阈值，当参数的变化小于阈值时停止迭代。

5. 迭代更新：如果参数点不满足收敛条件，则返回步骤2，继续进行梯度的计算和参数的更新，直到满足收敛条件为止。

通过以上步骤，梯度下降法不断迭代更新参数，直到找到函数的最小值点。

需要注意的是，梯度下降法只能保证找到局部最小值，并不一定能找到全局最小值。

此外，学习率是一个重要的超参数，过大或过小的学习率都会影响梯度下降法的性能，因此需要合理选择学习率。

13、梯度下降算法

13、梯度下降算法1、机器学习中为什么需要梯度下降梯度下降是机器学习中常见优化算法之⼀，梯度下降法有以下⼏个作⽤：（1）梯度下降是迭代法的⼀种，可以⽤于求解最⼩⼆乘问题。

（2）在求解机器学习算法的模型参数，即⽆约束优化问题时，主要有梯度下降法（Gradient Descent）和最⼩⼆乘法。

（3）在求解损失函数的最⼩值时，可以通过梯度下降法来⼀步步的迭代求解，得到最⼩化的损失函数和模型参数值。

（4）如果我们需要求解损失函数的最⼤值，可通过梯度上升法来迭代。

梯度下降法和梯度上升法可相互转换。

（5）在机器学习中，梯度下降法主要有随机梯度下降法和批量梯度下降法。

2、梯度下降法缺点梯度下降法缺点有以下⼏点：（1）靠近极⼩值时收敛速度减慢。

（2）直线搜索时可能会产⽣⼀些问题。

（3）可能会“之字形”地下降。

梯度概念也有需注意的地⽅：（1）梯度是⼀个向量，即有⽅向有⼤⼩。

（2）梯度的⽅向是最⼤⽅向导数的⽅向。

（3）梯度的值是最⼤⽅向导数的值。

3、梯度下降法直观理解梯度下降法经典图⽰如下图所⽰：形象化举例，由上图所⽰，假如最开始，我们在⼀座⼤⼭上的某处位置，因为到处都是陌⽣的，不知道下⼭的路，所以只能摸索着根据直觉，⾛⼀步算⼀步，在此过程中，每⾛到⼀个位置的时候，都会求解当前位置的梯度，沿着梯度的负⽅向，也就是当前最陡峭的位置向下⾛⼀步，然后继续求解当前位置梯度，向这⼀步所在位置沿着最陡峭最易下⼭的位置⾛⼀步。

不断循环求梯度，就这样⼀步步地⾛下去，⼀直⾛到我们觉得已经到了⼭脚。

当然这样⾛下去，有可能我们不能⾛到⼭脚，⽽是到了某⼀个局部的⼭势低处。

由此，从上⾯的解释可以看出，梯度下降不⼀定能够找到全局的最优解，有可能是⼀个局部的最优解。

当然，如果损失函数是凸函数，梯度下降法得到的解就⼀定是全局最优解。

核⼼思想归纳：（1）初始化参数，随机选取取值范围内的任意数；（2）迭代操作： a）计算当前梯度； b）修改新的变量； c）计算朝最陡的下坡⽅向⾛⼀步； d）判断是否需要终⽌，如否，返回a）；（3）得到全局最优解或者接近全局最优解。

常见的梯度下降算法

梯度下降算法是一种最优化算法，主要用于寻找一个函数的局部最小值。

在机器学习和深度学习中，梯度下降法被广泛用于优化损失函数，从而使得模型的参数能够更好地拟合训练数据。

梯度下降算法的核心思想是：从初始点开始，沿着函数梯度的反方向进行迭代，逐步调整参数，以找到使函数值最小化的最优解。

常见的梯度下降算法有以下几种：
批量梯度下降（Batch Gradient Descent）：这是最原始的梯度下降算法。

在每次迭代中，它使用整个数据集来计算梯度，并更新参数。

然而，由于需要使用整个数据集，因此在大规模数据集上，批量梯度下降的运算速度会比较慢。

随机梯度下降（Stochastic Gradient Descent）：为了解决批量梯度下降的效率问题，随机梯度下降每次迭代只使用一个样本来计算梯度，并更新参数。

这使得随机梯度下降在大数据集上的运算速度更快，但同时也增加了参数的波动性。

小批量梯度下降（Mi。

梯度下降

05
梯度下降算法在机器学习中的应用
线性回归模型参数优化
01
02
03
04
初始化参数
为线性回归模型的参数设定初始值。
计算梯度
根据损失函数计算参数的梯度。
更新参数
沿着梯度的反方向更新参数，以减小损失函数的值。
迭代优化
重复计算梯度和更新参数的过程，直到达到预设的迭代次数
或损失函数收敛。
逻辑回归模型参数优化
小批量梯度下降法适用于大多数机器学习问题，特别是数据集较大且需要高效优化模型的情况。同时，该方法也适用于需要在线学习和实时更新的场景。
03
梯度下降算法实现步骤
数据预处理与特征选择
01
02
03
数据清洗
去除或填充缺失值、处理异常值、删除重复数据等。
特征缩放
通过标准化或归一化等方法，使不同特征具有相同的尺度，提高梯度下降算法的收敛速度。
引入动量因子，使得梯度下降过程具有一定的惯性，有助于逃离局部最小值。
鞍点问题及其影响分析
鞍点问题
梯度下降算法在优化过程中可能会遇到鞍点，即某些方向上是局部最小值，而其他方向上是局部最大值，导致优化过程停滞不前。
影响分析
鞍点会使得梯度下降算法在优化过程中陷入局部区域，难以继续搜索更优的解，从而影响优化结果和算法收敛速度。
初始化参数
为逻辑回归模型的参数设定初始值。
更新参数
使用梯度下降算法更新参数，以最小化对数似然损失函数的值。
计算梯度
根据对数似然损失函数计算参数的梯度。
迭代优化与正则化
通过迭代优化算法不断调整参数，同时引入正则化项以防止过拟合。

机器学习：梯度下降法

机器学习：梯度下降法⼀、梯度下降法基础定义：梯度下降法不是⼀个机器学习算法，是⼀种基于搜索的最优化⽅法；功能：最优化⼀个损失函数；梯度上升法：最⼤化⼀个效⽤函数；机器学习中，熟练的使⽤梯度法（下降法、上升法）求取⽬标函数的最优解，⾮常重要；线性回归算法模型的本质就是最⼩化⼀个损失函数，求出损失函数的参数的数学解；很多机器学习的模型是⽆法求出⽬标函数的参数的最优解；梯度下降法是在机器学习领域中最⼩化损失函数的最为常⽤的⽅法；　1）梯度下降法的逻辑思路每次改变⼀点参数theta，⽬标函数 J 跟着改变，不断的递进改变参数值，得到⽬标函数的极值；经过多次运⾏，每次随机选取初始化的点，得出不同的局部最优解（极值），⽐较所有最优解，最⼩/最⼤的合格值就是⽬标函数的最值；theta：模型中的参数，⽽不是模型中的变量；（以线性回归模型为例）模型中的每⼀个 X 表⽰⼀个样本，每⼀个 y 表⽰该样本对应的值；y = X.dot(θ)：结果为⼀个数值；变量 theta 的变化量 = 学习率 X 梯度/导数new_theta = last_theta - theta的变化量损失函数 J 应该有⼀个最⼩值，对于最⼩化⼀个损失函数来说，相当于在此坐标系中，寻找⼀个点参数theta使得 J 取得最⼩值导数可以代表函数变化的⽅向，对应 J 增⼤的⽅向，因为公式前加了符号 “ - ” ；η：学习率（Learning rate）1. η的取值影响获得最优解的速度；2. η取值不合适，甚⾄得不到最优解；3. η是梯度下降法的⼀个超参数；⼀般需要调参找到最适合的η；4. η太⼩，减慢收敛学习速度5. η太⼤，导致不收敛如果出现 J 的变化有减有曾，可能是η的取值太⼤；收敛：得到极值的过程　2）梯度下降法的问题问题：并不是所有的函数都有唯⼀的极值点，优化的⽬标是找到最⼩值点；⽅案：多次运⾏，随机化初始点，⽐较后取最优解；⽅案弊端：也不⼀定能找到全局最优解；　3）其它直线⽅程中导数代表斜率；曲线⽅程中导数代表在这⼀点的切线的斜率；为什么叫梯度：在多维函数中，要对各个⽅向的分量分别求导，最终得到的⽅向就是梯度；多维函数中，梯度代表函数变化的⽅向，对应就 J 增⼤/减⼩的⽅向；梯度下降法的初始点也是⼀个超参数，起始点对于⼀个算法是⾮常重要的；⼆、程序模拟梯度下降法原理　1）具体实现 # 模拟损失函数：y = (x - 2.5)**2 - 1 # 数据集特征值：plot_x = np.linspace(-1, 6, 141)代码import numpy as npimport matplotlib.pyplot as plt# np.linspace(-1, 6, 141)：将区间[-1, 6]等分成141份，包含-1和6plot_x = np.linspace(-1, 6, 141)# 记录搜索过程中的theta值theta_history = []# 1）计算当前theta值对应的损失函数的导数值def dJ(theta):return 2*(theta-2.5)# 2）计算当前theta值对应的损失函数值# 在计算损失函数时添加异常检测功能# 设置异常检测原因：当 eta 过⼤时，使得损失函数是不断增⼤的，也就得不到满⾜精度的损失函数值，就会报错# 异常检测：没有异常时执⾏try，有异常时执⾏except# 此处执⾏except时返回浮点数的最⼤值def J(theta):try:return (theta-2.5)**2 - 1.except:return float('inf')# 3）梯度下降，循环搜索，获取局部最优解# ⼀般判断函数的极值点位置：导数 == 0# 如何判断theta是否来到的极值点？# 问题：编程具体实现的时候，有可能由于eta设置的不合适，或者求导时有浮点精度，使得求取的损失函数最⼩值所对应的theta点，不是导数刚好等于 0 的点# 循环结束：当前的损失函数值 - 上⼀次的损失函数值之间的差 < 精度，此时停⽌循环，以为当前的损失函数值为局部最优解# initial_theta：theta的初始值# eta：学习率# n_iters：循环次数，默认10000次；（如果不设定循环次数，程序出现死循环时会⼀直执⾏）# espsilon：精度，默认10**-8def gradient_descent(initial_theta, eta, n_iters = 10**4, espsilon=10**-8):theta = initial_thetatheta_history.append(initial_theta)i_iter = 0while i_iter < n_iters:# 循环开始时，先求取当前theta所对应的梯度gradient = dJ(theta)# abs(x)：求x的绝对值last_theta = thetatheta = theta - eta * gradienttheta_history.append(theta)if(abs(J(theta) - J(last_theta)) < epsilon):break# 每进⾏⼀次循环，得不到结果时，记录⼀次循环次数# 如果得到了结果，break直接终端循环i_iter += 1# 4）绘制参数与损失函数的关系图形、绘制循环搜索过程中的theta值与损失函数的关系图def plot_theta_history():plt.plot(plot_x, J(plot_x))plt.plot(np.array(theta_history), J(np.array(theta_history)), color='r', marker='+')plt.show()其它1. 计算当前theta值对应的损失函数 J 的值时，要进⾏异常检测；原因：当 eta 过⼤时，使得损失函数是不断增⼤的，也就得不到满⾜精度的损失函数值，就会报错；2. 如何判断theta是否来到了极值点？⽅案：设定精度，当前的损失函数值 - 上⼀次的损失函数值之间的差 < 精度，此时停⽌循环，以为当前的损失函数值为局部最优解；3. 问题：①、⼀般判断函数的极值点位置：导数 == 0②、编程具体实现的时候，有可能由于eta设置的不合适，或者求导时有浮点精度，使得求取的损失函数最⼩值所对应的theta点，不是导数刚好等于 0 的点；4. 梯度下降，循环搜索时，设定循环次数；原因：如果不设定循环次数，程序出现死循环时会⼀直执⾏；5. np.linspace(-1, 6, 141)：将区间 [-1, 6] 等分成141个点，包含 -1 和 6；6. abs(x)：返回x的绝对值；　2）给定不同的学习率、初始值，查看优化情况1. eta = 0.1theta_history = []gradient_descent(0., eta)plot_theta_history()# len(theta_history) == 462. eta = 0.01theta_history = []gradient_descent(0., eta)plot_theta_history()# len(theta_history) == 4243. eta = 0.8theta_history = []gradient_descent(0., eta)plot_theta_history()# len(theta_history) == 224. eta = 1.1theta_history = []gradient_descent(0., eta, n_iters=10)plot_theta_history()# len(theta_history) == 10001分析1. 现象：搜索开始时 J 和 theta 变化都⽐较⼤，最后变化较⼩；（搜索点的分布：由疏到密）# 原因：theta的每次变化量 == eta * 2 * (theta-2.5)，随着theta的不断减⼩，每次的变化量也会减⼩，因此⽔平⽅向上点的分布越来越密另外，由J == (theta - 2.5) ** 2 - 1看出，每次的 J 的变化量也会减⼩，因此垂直⽅向上点的分布也会越来越密# 变化量 == 学习率 X 导数，导数 == 2*(theta - 2.5)，new_theta == last_theta — last_变化量。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

随机梯度下降收敛图（SGD迭代的次数较多，在解空间的搜索过程看起来很盲目。但是大体上是往着最优值方向移动。）
5. 小批量梯度下降法MBGD
为综合解决BGD的训练速度慢，以及SGD的准确性低的问题，提出MBGD 它是利用部分样本的损失函数对θ求偏导得到对应的梯度，来更新θ。
6. 总结
方法 BGD
对所有m个样本数据，上述损失函数的偏导（累和）为：
（2）由于是要最小化风险函数，所以按每个
参数θ的梯度负方向，来更新每个θj(j=0, 1, 2, …, n)
上例中，利用BGD求得
由更新公式可知，批量梯度下降得到的是一个全局最优解，每一次的参数更新都用到了所有的训练数据，如果训练数据非常多的话，执行效率较低。
梯度下降法
2017.6.13
1. 引言
梯度下降（GD）是最小化风险函数、损失函数的一种常用方法。
在应用机器学习算法时，通常采用梯度下降法来对采用的算法进行训练。
梯度下降法包含三种不同形式：
批量梯度下降BGD（Batch Gradient Descent ）
随机梯度下降SGD（Stochastic Gradient Descent ）
参考文献
https:///p/25765735 /lilyth_lilyth/article/details/8973972 http://other/504873.ht
m
畅想网络
其中： m是训练集的样本个数 1/2是为了后面求导计算方便
一个二维参数（ θ 0 ， θ 1 ）组对应能量函数（描述整个系统的优化程度，随着网络的变化
而减小，最终网络稳定时能量达到最小）的可视化图
3. 批量梯度下降法BGD
更新算法的目的：误差函数尽可能小，即求解参数使误差函数尽可能小。
批量梯度下降法的收敛图（迭代的次数相对较少）：
4. 随机梯度下降法SGD
由于批梯度下降每更新一个参数的时候，要用到所有样本，所以训练速度会随着样本数量的增加而变得非常缓慢。
随机梯度下降正是为了解决这个办法而提出的。它是利用单个样本的损失函数对θ求偏导得到对应的梯度，来更新θ。
上例中，利用SGD求得
SGD
MBGD
优点
缺点
最小化所有训练样本的损失如果样本值很大的话，更新函数，使得最终求解的是全速度会很慢。局的最优解
最小化每个样本的损失函数，训练数据的噪声较多，导致大大加快更新速度，最终的不是每次迭代得到的损失函结果在全局最优解附近。数都向着全局最优方向。
训练速度快，参数准确性高不同的问题需要设置不同的小批量值。
Imagination Network
感谢观看！
文章内容来源于网络，如有侵权请联系我们删除。
随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将参数迭代到最优解。
对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。
SGD的问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。
假设一维线性模型表达式如下：
其中：
hƟ(x)是假设函数，即要拟合的函数 θ为待求解参数，即要迭代求解的值， θ求解出来了那最终要拟合的函数hƟ(x)就确定了。 n表示输入特征数，为方便计算，所有的样本都加入了x0=1这个特征，所以维数为n+1维。
对应的损失/误差函数，即估计值与真实值之间的差距，这里用2-范数表示为：
主要思想：
首先，随机初始化参数；然后，不断反复的更新参数使得误差函数减小，
直到满足要求时停止。
梯度下降算法，利用初始化的参数θ并且反复更新参数θ：
α代表学习率，表示每次向着函数J最陡峭的方向迈步的大小（步长？）
（1）将J(θ)对θ求偏导，得到每个θ对应的的梯度
当m=1时，即只有一个样本数据（x, y），J对第j个参数θj的偏导数是：
小批量梯度下降法MBGD (Mini-Batch Gradient Descent )
下文将以线性回归算法为例来对三种梯度下降法进行比较
2. 先导知识
一元线性回归(拟合曲线) 假设这里存在m=6组数据(x, y)
从图上可以看出，大致数据的大致走势是可以用线性模型y=kx+b来表示的，为此我们建立一维线性回归模型。