最小二乘法的推导过程

合集下载

递推最小二乘法推导(RLS)——全网最简单易懂的推导过程

递推最小二乘法推导（RLS）——全网最简单易懂的推导过程作者：阿Q在江湖先从一般最小二乘法开始说起已知x和y的一系列数据，求解参数theta的估计。

用矩阵的形式来表达更方便一些：其中k代表有k组观测到的数据，表示第i组数据的输入观测量，yi表示第i组数据的输出观测量。

令：，则最小二乘的解很简单，等价于即参数解为：如果数据是在线的不断的过来，不停的采用最小二乘的解法来解是相当消耗资源与内存的，所以要有一种递推的形式来保证对的在线更新。

进一步推导出递推最小二乘法（RLS）我们的目的是从一般最小二乘法的解推导出的递推形式。

一定要理解这里的下标k代表的意思，是说在有k组数据情况下的预测，所以k比k-1多了一组数据，所以可以用这多来的一组数据来对原本的估计进行修正，这是一个很直观的理解。

下面是推导过程：先看一般最小二乘法的解下面分别对和这两部分进行推导变换，令得到下面公式（1）下面来变换得到公式（2）下面再来，根据一般最小二乘法的解，我们知道下式成立，得到公式（3）（注：后续公式推导用到）好了，有了上面最主要的三步推导，下面就简单了,将上面推导的结果依次代入公式即可：至此，终于变成的形式了。

通过以上推导，我们来总结一下上面RLS方程：注：以上公式7中，左边其实是根据公式1，右边I为单位矩阵公式（5）和（7）中，有些文献资料是用右边的方程描述，实际上是等效的，只需稍微变换即可。

例如（5）式右边表达式是将公式（1）代入计算的。

为简化描述，我们下面还是只讨论左边表达式为例。

上面第7个公式要计算矩阵的逆，求逆过程还是比较复杂，需要用矩阵引逆定理进一步简化。

矩阵引逆定理：最终RLS的方程解为：好了，至此完毕！以上应该算是最简单的推导过程了，相信都能看得懂了。

后续有时间将增加带遗忘因子的RLS推导步骤，毕竟工程上的实际用途很多用此方法，比如在线辨识电池系统等效电路模型的参数，用于卡尔曼滤波算法估算SOC……。

最小二乘推导过程

最小二乘推导过程在这个快节奏的时代，咱们总是希望把事情做得更加简单明了。

你有没有想过，怎么从一堆数据中找出一个最好的拟合线？这听起来有点复杂，但其实就是最小二乘法的工作。

说到这，可能很多人会想，最小二乘法听上去像是个高深莫测的数学术语，实则它就像是家里的那瓶老酒，虽然看似不起眼，却能给你意想不到的惊喜。

想象一下，你在一个阳光明媚的下午，和朋友一起出去钓鱼。

你们钓了不少鱼，回家后朋友问你：“你今天钓的鱼平均多大？”这时你得开始思考，怎么把这些数据弄得清清楚楚。

最小二乘法就像是个聪明的小助手，帮你找出最能代表这些鱼的平均大小。

它的工作原理就像是在钓鱼时用网兜把鱼收进来，只不过这个网是用来把数据点收集在一起的。

简单说来，最小二乘法的核心思想就是通过数学的方式，让每个数据点与拟合线的距离尽可能小。

你可以把这个过程想象成在跳舞，数据点在舞池里不停摇摆，拟合线就是那位优雅的舞者，尽量让每个人都能跟上节拍。

如果某些舞者偏离了节奏，最小二乘法就会想方设法把他们拉回来，确保整个舞蹈的和谐美观。

最小二乘法的推导过程就像是在进行一场精心的烹饪。

你得准备好食材，这里的食材就是你的数据。

把这些数据点摆出来，然后计算每个点与拟合线之间的距离。

这个距离可以用平方来表示，为什么要平方呢？因为我们想要消除负号的影响，毕竟没有人喜欢阴郁的感觉，对吧？就是最有趣的部分了。

你要把所有的距离平方加在一起，这个总和就像是你炖的汤的味道，越少越好，说明这道菜做得棒棒的。

于是，你开始对这个总和进行优化，试着找到最佳的拟合线位置。

就好比你在不断调整火候，力求把菜肴做得色香味俱全。

经过一番折腾，你会发现一个神奇的结果。

那个拟合线终于出现了，它就像一位气质优雅的模特，站在舞台，散发着无与伦比的光彩。

这条线不仅把数据点串联起来，还让你对数据有了更深入的理解。

通过这条线，你能够预测未来的趋势，简直就像给未来装上了一双透视眼。

最小二乘法的魅力就在于此。

它不仅仅是个公式，还是一个帮助你看清事物本质的工具。

推导最小二乘法的两种方法

推导最小二乘法的两种方法最小二乘法是一种常见的数据拟合方法,用于找到一条直线,使得该直线与一组数据之间的最小距离等于零。

下面将介绍两种推导最小二乘法的方法。

方法一:基于样本点的距离我们可以从样本点出发,构造一条直线,使得该直线与样本点的距离等于零。

具体来说,设样本点为 (x_i, y_i),我们希望构造的直线为:y = ax + b其中 a 和 b 是待求的直线的参数。

为了找到 a 和 b,我们可以对样本点进行距离计算,得到:d = |y_i - ax_i + b|我们希望 d 等于零,即 y_i - ax_i + b = 0。

解这个方程,可以得到 a = (y_i - b) / x_i,b = y_i。

因此,我们得到一条直线的参数为:a = (y_i - b) / x_i,b = y_i该直线与样本点的距离就是:d = |y_i - ax_i + b| = |y_i - (y_i - b) / x_i + b| = (y_i - b) / x_i + b方法二:基于最小二乘法的公式另一种推导最小二乘法的方法是利用最小二乘法的公式。

最小二乘法的公式是:最小二乘法 = 1 / (n - 1) * Σ (y - y_i)^2 / (x - x_i)^2其中 n 是样本数,y_i 和 x_i 是样本点的坐标。

我们希望找到一条直线,使得该直线的斜率 k 满足:k * (x - x_i) = (y - y_i)即 k * (x - x_i) = y - y_i我们要求 k * (x - x_i) 最小,即要求 y - y_i 最小。

因此,我们可以构造一组数据,使得 y - y_i 最小。

具体来说,设 y_j = y_i + c,其中 c 是常数。

我们可以构造一条直线:k * (x - x_i) = y - y_i = y_j - c其中 k * (x - x_i) 就是直线的斜率。

最小二乘法-公式推导

最⼩⼆乘法-公式推导基本思想求出这样⼀些未知参数使得样本点和拟合线的总误差（距离）最⼩最直观的感受如下图（图引⽤⾃知乎某作者）⽽这个误差（距离）可以直接相减，但是直接相减会有正有负，相互抵消了，所以就⽤差的平⽅推导过程1 写出拟合⽅程y =a +bx2 现有样本(x 1,y 1),(x 2,y 2)...(x n ,y n )3 设d i 为样本点到拟合线的距离，即误差d i =y i −(a +bx i )4 设D 为差⽅和（为什么要取平⽅前⾯已说，防⽌正负相互抵消）D =n ∑i =1d 2i =n ∑i =1(y i −a −bx i )25 根据⼀阶导数等于0，⼆阶⼤于等于0（证明略）求出未知参数对a 求⼀阶偏导∂D ∂a =n∑i =12(y i −a −bx i )(−1)=−2n∑i =1(y i −a −bx i )=−2(n ∑i =1y i −n ∑i =1a −b n∑i =1x i )=−2(n ¯y−na −nb ¯x )对b 求⼀阶偏导∂D ∂b=n∑i=12(y i−a−bx i)(−x i)=−2n∑i=1(x i y i−ax i−bx2i)=−2(n ∑i=1x i y i−an∑i=1x i−bn∑i=1x2i)=−2(n ∑i=1x i y i−na¯x−bn ∑i=1x2i)令偏导等于0得−2(n¯y−na−nb¯x)=0 =>a=¯y−b¯x−2(n ∑i=1x i y i−na¯x−b n∑i=1x2i)=0并将a=¯y−b¯x带⼊化简得=>n∑i=1x i y i−n¯x¯y+nb¯x2−bn∑i=1x2i=0=>n∑i=1x i y i−n¯x¯y=b(n∑i=1x2i−n¯x2)=>b=n∑i=1x i y i−n¯x¯yn∑i=1x2i−n¯x2因为\require{cancel}\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})=\sum\limits_{i-1}^{n}(x_iy_i-\bar{x}y_i-x_i\bar{y}+\bar{x}\bar{y})=\sum\limits_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}-\cancel{n\bar{x}\bar{y}}+\cancel{n\bar{x}\bar{y}}\sum\limits_{i=1}^{n}(x_i-\bar{x})^2=\sum\limits_{i-1}^{n}(x_i^2-2\bar{x}x_i+\bar{x}^2)=\sum\limits_{i=1}^{n}x_i^2-2n\bar{x}^2+n\bar{x}^2=\sum\limits_{i=1}^{n}x_i^2-n\bar{x}^2所以将其带⼊上式得\color{red}{b=\frac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}} Loading [MathJax]/extensions/TeX/cancel.js。

最小二乘法参数估计量推导

最小二乘法参数估计量推导最小二乘法，这个名字听上去挺高深的，其实就是一种简单而强大的数学工具，广泛应用于数据分析中。

今天，我们就来聊聊这玩意儿到底是怎么一回事。

1. 什么是最小二乘法最小二乘法其实就是在做“找差距”的工作。

假设你有一堆数据点，比如说你测量了一系列的温度和对应的电力消耗，你的目标是找到一条最能贴合这些数据点的直线。

这条直线就像是你为数据“量体裁衣”的结果。

1.1. 基本思想最小二乘法的核心思想就是：找到一条直线，使得每一个数据点到这条直线的距离（叫做“残差”）的平方和最小。

这个“平方和”就像是把所有的偏差加起来，让它们不再那么“任性”。

1.2. 为什么用“平方”？那为什么要把这些偏差平方呢？因为平方能有效地放大大的误差，这样我们就不容易忽视它们。

就像打麻将，偏差大的牌更容易被看见，才能让我们在游戏中更精准地调整策略。

2. 数学推导好啦，接下来我们就来捋一捋这个过程。

咱们还是从简单的说起：假设你有一组数据点（x₁, y₁）、（x₂, y₂）、……、（xₙ, yₙ），而你要找的是一条直线y = β₀ + β₁x。

这条直线就是我们的“理想之线”。

2.1. 定义目标函数我们的目标就是最小化所有这些点到直线的距离平方和。

用数学的语言来描述，就是要最小化目标函数：[ S(beta_0, beta_1) = sum_{i=1}^n (y_i beta_0 beta_1 x_i)^2 ]。

这里面，(y_i beta_0 beta_1 x_i)就是每一个点到直线的距离，平方了之后就能让误差更加明显。

2.2. 求导数为了找到最小值，我们需要对目标函数进行求导数，然后让导数等于零。

这个过程就像是找到山顶的最低点一样。

我们分别对β₀和β₁求偏导数，然后设定这些偏导数为零，得到两个方程：[ frac{partial S}{partial beta_0} = 0 ]。

[ frac{partial S}{partial beta_1} = 0 ]。

最小二乘法的计算公式

最小二乘法的计算公式在以下的推导过程中，我们假设有一个线性模型，形式为:Y=Xβ+ε其中，Y是一个n维观测向量，表示观测到的因变量；X是n×m维的设计矩阵，每行代表一个观测点，每列代表一个自变量；β是一个m维参数向量，表示模型中的未知参数；ε是观测误差向量，假设服从均值为0，方差为σ^2的多元正态分布（ε~N(0,σ^2I)）。

e=Y-Xβ残差平方和SSE可以由残差向量的范数的平方表示:SSE=e^Te=(Y-Xβ)^T(Y-Xβ)要找到参数向量β的最优估计，我们需要求解以下正规方程（normal equation）:X^TXβ=X^TY正规方程的解可以通过求逆或者矩阵分解等方式得到。

当X^TX可逆时，正规方程的解为:β=(X^TX)^(-1)X^TY其中，^T表示矩阵的转置，^(-1)表示矩阵的逆运算。

X=UΣV^T其中，U和V是正交矩阵，Σ是一个对角矩阵，对角线上的元素称为奇异值。

我们可以利用这个分解来求解正规方程:β=(X^TX)^(-1)X^TY=(VΣ^TU^TUΣV^T)^(-1)VΣ^TU^TY=VΣ^(-1)U^TY在实际计算中，我们通常通过计算设计矩阵X的奇异值分解来求解最小二乘问题，这样可以克服矩阵X不可逆的问题。

除了最小二乘估计的公式和计算方法之外，我们还可以通过方差-协方差矩阵来度量参数估计的精确程度。

方差-协方差矩阵的估计公式为：Var(β) = σ^2(X^TX)^(-1)其中，Var(β)是参数向量β的方差-协方差矩阵，σ^2是误差项ε的方差。

最小二乘法在统计学和数据分析中有着广泛的应用，它不仅适用于线性模型，还可以推广到非线性模型，并且可以通过引入响应变量的变换来解决非常数方差和非正态分布误差的问题。

此外，最小二乘法还可以用于解决多元回归、多项式拟合等问题。

总结起来，最小二乘法是一种重要的数据拟合方法，通过最小化观测值与预测值之间的差异（残差平方和），可以得到线性模型中参数的最佳估计值。

最小二乘法公式推导

最小二乘法公式推导
最小二乘法是一种用于拟合数据的统计方法，通过最小化残差平方和来确定一组最佳的拟合系数。

以下是最小二乘法的公式推导：
假设有n个数据点(x1,y1),(x2,y2),...,(xn,yn)，
要用一条直线y=a+bx来拟合这些数据，其中a和b是未知
参数。

首先定义残差ei为第i个数据点的y值减去拟合直线在该
点的预测值：
ei=yi-(a+bxi)
然后，我们将残差平方和S定义为所有n个数据点的残差平
方的和：
S=Σ(ei^2)=Σ(yi-a-bxi)^2
要找到最佳的拟合系数a和b，我们需要将S最小化。

为了
实现这一点，我们可以将S分别对a和b求偏导，并令偏导数等
于0，得到以下两个方程：
∂S/∂a=-2Σ(yi-a-bxi)=0
∂S/∂b=-2Σ(xi)(yi-a-bxi)=0
将上述两个方程展开并整理，得到：
na+bΣ(xi)=Σ(yi)
bΣ(xi^2)+aΣ(xi)=Σ(xi)(yi)
这是一个包含两个未知数a和b的线性方程组，可以通过解方程组来求出最佳的拟合系数。

具体来说，我们可以使用矩阵求解法，将上述方程组转化为矩阵形式：
|nΣ(xi)||a||Σ(yi)|
|Σ(xi)Σ(xi^2)||b|=|Σ(xi)(yi)|
然后，可以使用矩阵的逆来求解a和b的值：
|a||nΣ(xi)|^-1|Σ(yi)|
|b|=|Σ(xi)Σ(xi^2)||Σ(xi)(yi)|
最终，得到的a和b就是最小二乘法所求的拟合系数，可以将其代入y=a+bx中，得到拟合直线的方程。

最小二乘法推导详细

最小二乘法推导详细最小二乘法是一种通用的回归分析方法，它所得模型可用于估计自变量和因变量之间的线性关系，适用于预测和探索走势。

最小二乘法原理是通过寻找最小化误差平方和的方法，来确定独立变量（即自变量）和被解释变量（即因变量）的关系。

假如存在一个二元线性回归问题，自变量为 x，因变量为 y，则最小二乘法所求得的回归方程为：y = β0 + β1x，其中β0 和β1 是截距和斜率。

最小二乘法可以应用于任何数学函数，只要函数可以近似描述数据集内的关系。

最小二乘法的推导过程包含以下几步骤：Step 1: 定义问题假设存在一组数据集 (x_i, y_i)，其中 x_i 为独立变量，y_i 为所要解释的变量。

我们要寻找一个线性方程y = β0 + β1x，其中β0 和β1 为待求解的系数，使得该方程能够最好地描述数据集内的关系。

Step 2: 确定模型模型的选择是最小二乘法中至关重要的一步。

在本例中，我们需要使用线性回归模型y = β0 + β1x。

这意味着当自变量 x 增加 1 个单位时，因变量 y 会增加β1 个单位。

Step 3: 求解系数我们要通过最小二乘法来求解方程的系数β0 和β1。

因为最小二乘法可最小化误差平方和，而误差即为样本数据集中观测值 y_i 与估计值 y_i^ 的差距。

因此，我们需要将这个差距（即残差）平方并求和。

最终我们需要得到误差的公式以及误差对系数的偏导数。

Step 4: 残差平方和的最小值在最后一步中，我们要用求导法将误差函数（即残差平方和）最小化，以得到系数β0 和β1 的最佳解。

为求得残差平方和的最小值，需要对误差函数对β0 和β1 分别求导。

推导过程如下：误差函数定义为：E(β0, β1) = Σ(y_i - (β0 + β1*x_i))^2对β0 求偏导得：dE/dβ0 = Σ2(y_i - β0 - β1*x_i)(-1) = -nβ0 - β1Σ(x_i) + Σ(y_i)对β1 求偏导得：dE/dβ1 = Σ2(y_i - β0 - β1*x_i)(-x_i) = -β0Σ(x_i) - β1Σ(x_i^2) + Σ(x_i*y_i)将上述两个偏导数设置为零，得到下式：Σ(y_i) = nβ0 + β1Σ(x_i)Σ(x_i*y_i) = β0Σ(x_i) + β1Σ(x_i^2)通过解这两个方程组，我们就可以得到β0 和β1 的值，即：β1 = [n*Σ(x_i*y_i) - Σ(x_i)*Σ(y_i)] /[n*Σ(x_i^2) - (Σ(x_i))^2]β0 = [Σ(y_i) - β1 * Σ(x_i)] / n最小二乘法就是通过上述方法来最小化误差平方和，以得出在给定数据集上最适合的线性方程的方法之一。

几种最小二乘法递推算法的小结

递推最小二乘法的一般步骤：1. 根据输入输出序列列出最小二乘法估计的观测矩阵ϕ：] )(u ... )1( )( ... )1([)(T b q n k k u n k y k y k ------=ϕ没有给出输出序列的还要先算出输出序列。

本例中， 2)]-u(k 1),-u(k 2),-1),-y(k -[-y(k )(T =k ϕ。

2. 给辨识参数θ和协方差阵P 赋初值。

一般取0θ=0或者极小的数，取σσ,20I P =特别大，本例中取σ=100。

3. 按照下式计算增益矩阵G ：)()1()(1)()1()(k k P k k k P k G T ϕϕϕ-+-= 4. 按照下式计算要辨识的参数θ：)]1(ˆ)()()[()1(ˆ)(ˆ--+-=k k k y k G k k T θϕθθ5. 按照下式计算新的协方差阵P ：)1()()()1()(---=k P k k G k P k P T ϕ6. 计算辨识参数的相对变化量，看是否满足停机准则。

如满足，则不再递推；如不满足，则从第三步开始进行下一次地推，直至满足要求为止。

停机准则：εϑϑϑ<--)(ˆ)1(ˆ)(ˆmax k k k i i i i 本例中由于递推次数只有三十次，故不需要停机准则。

7. 分离参数：将a 1….a na b 1….b nb 从辨识参数θ中分离出来。

8. 画出被辨识参数θ的各次递推估计值图形。

为了说明噪声对递推最小二乘法结果的影响，程序5-7-2在计算模拟观测值时不加噪声，辨识结果为a1 =1.6417，a2 = 0.7148，b1 = 0.3900，b2 =0.3499，与真实值a1 =1.642， a2 = 0.715， b1 = 0.3900，b2 =0.35相差无几。

程序5-7-2-1在计算模拟观测值时加入了均值为0，方差为0.1的白噪声序列，由于噪声的影响，此时的结果为变值，但变化范围较小，现任取一组结果作为辨识结果。

最小二乘法超详细推导

最小二乘法超详细推导好，咱们聊聊最小二乘法，听起来是不是有点儿高大上？但其实它的原理就像是在生活中解决问题一样简单。

想象一下，你跟朋友约好一起去看电影，结果两个人的时间都不太对付，最后迟到了。

为了避免下次再犯错，你们想出一个办法：每次都提前半小时出门。

这就像最小二乘法，简单明了，追求一个更好的结果。

最小二乘法的基本思想就像是给一堆点点画线，想要找到一条“最佳”线，让这条线跟所有的点距离最小。

听上去有点抽象，但我给你举个例子。

假设你正在学习滑板，刚开始的时候，可能会摔得东倒西歪，根本控制不住。

你想要找出一个滑行的规律，比如，哪个角度、哪个姿势滑起来更顺畅。

于是你反复尝试，记录每次摔倒的位置，然后把所有这些点连起来，最后找到那个“最佳姿势”。

这就像是在求一个最小值，把每次摔倒的距离都尽量缩短。

让我们深入一点儿，最小二乘法的数学公式其实挺简单，咱们用y=ax+b来表示。

这里的y就像你想要达到的目标，比如说滑板的速度，x是你能控制的因素，比如滑板的角度。

a是斜率，代表你加速的程度，b则是你起步的高度。

听上去是不是有点像在调配一杯完美的饮料？如果把这几个变量调得刚刚好，恰到好处，那就能滑得又快又稳。

这时候，我们就要把所有的点放到图上，看看哪个点偏离得最多。

每个点到那条线的距离就像是你在追求完美的过程中产生的小失误。

咱们要做的，就是把这些距离的平方加起来，然后最小化，尽量让整体的偏差小到可忽略不计。

这个过程就像在追求一个完美的曲线，让你在滑板上飞翔的时候不再摔倒。

在实际操作中，我们往往需要用到一些数学工具，比如微积分。

听起来是不是有点吓人？别担心，其实就是为了找出那条最佳线的斜率和截距。

简单来说，就是要把所有的偏差搞清楚，给出一个准确的答案。

就像你在追求更好的生活方式，每天记录饮食和运动，最后找到那个最适合自己的节奏。

想象一下，咱们在找线的时候，就像在追寻自己的梦想。

每一次失败，每一次尝试，都是为了一条更完美的路径。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

最小二乘法的推导过程
最小二乘法是一种线性回归分析方法，用于解决当回归方程中的自变量与因变量之间存在一定误差时，如何求出最优解的问题。

其推
导过程如下：
1. 假设回归方程为y = β0 + β1x1 + β2x2 + ... + βkxk + ε，其中y为因变量，x1,x2,...,xk为自变量，β0,β1,...,βk为
回归系数，ε为误差项。

2. 根据最小二乘法的原理，我们需要求出使误差之和最小的回
归系数，即最小化残差平方和：Σ(yi - ŷi)^2，其中yi为实际值，ŷi为预测值。

3. 将回归方程中的自变量和误差项写成矩阵的形式，得到一个
线性模型：Y = Xβ + e，其中Y为n行1列的因变量向量，X为n行
k+1列的自变量矩阵，β为(k+1)行1列的回归系数向量，e为n行1
列的误差向量。

4. 利用最小二乘法的原理，将残差平方和对回归系数向量β求偏导数，并令其等于0，得到一个求解回归系数的正规方程组：X'Xβ = X'Y，其中X'为X矩阵的转置。

5. 解正规方程组，得到回归系数向量β的估计值：β =
(X'X)^-1X'Y。

6. 将得到的回归系数代入原始的回归方程中，即可得到最终的
线性回归方程。

通过以上推导过程，我们可以利用最小二乘法求解线性回归方程中的回归系数，从而预测因变量的值。

这种方法常用于统计学、金融学、经济学等领域，可以帮助我们更好地理解和分析数据。