线性回归之最小二乘法

合集下载

最小二乘法回归模型

最小二乘法回归模型
最小二乘法回归模型是统计学中常用的一种数据分析工具，用于探索两个或多个变量之间的关系。

该模型基于最小二乘法原理，通过最小化预测值与实际值之间的平方误差来找到最佳的回归线或回归面，从而实现对数据的拟合和预测。

最小二乘法回归模型的基本假设是，因变量与自变量之间存在线性关系，并且误差项独立同分布，服从正态分布。

在此基础上，我们可以通过建立线性回归方程来描述这种关系，并利用最小二乘法原理来求解回归系数。

在最小二乘法回归模型中，我们通常使用普通最小二乘法（Ordinary Least Squares，OLS）来估计回归系数。

OLS的核心思想是使得残差平方和（即预测值与实际值之差的平方和）达到最小。

通过求解最小化残差平方和的方程组，我们可以得到回归系数的估计值。

最小二乘法回归模型具有许多优点，如简单易行、计算方便、解释性强等。

它可以帮助我们了解变量之间的关系强度、方向以及预测未来的趋势。

同时，该模型还可以通过引入控制变量来消除其他因素的影响，提高回归分析的准确性。

然而，最小二乘法回归模型也存在一些限制和假设。

例如，它要求数据满足线性关系、误差项独立同分布等假设条件。

当这些假设不成立时，回归结果可能会受到偏差或误导。

因此，在应用最小二乘法回归模型时，我们需要对数据进行充分的探索和分析，以确保模型的有效性和可靠性。

总之，最小二乘法回归模型是一种强大的数据分析工具，它可以帮助我们揭示变量之间的关系并预测未来的趋势。

在实际应用中，我们需要根据具体情况选择合适的模型和方法，以提高数据分析的准确性和可靠性。

最小二乘法知识

最小二乘法知识最小二乘法是一种最优化方法，经常用于拟合数据和解决回归问题。

它的目标是通过调整模型参数，使得模型的预测值与观测值之间的差异最小。

最小二乘法的核心思想是最小化误差的平方和。

对于给定的数据集，假设有一个线性模型y = β₀ + β₁x₁ + β₂x₂ + ... +βₙxₙ，其中β₀, β₁, β₂, ... , βₙ 是需要求解的未知参数，x₁, x₂, ... , xₙ 是自变量，y 是因变量。

那么对于每个样本点 (xᵢ, yᵢ)，可以计算其预测值ŷᵢ = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ，然后计算预测值与实际值之间的差异 eᵢ = yᵢ - ŷᵢ。

最小二乘法的目标是使得误差的平方和最小化，即最小化目标函数 E = ∑(yᵢ - ŷᵢ)²。

对于简单的线性回归问题，即只有一个自变量的情况下，最小二乘法可以通过解析方法求解参数的闭合解。

我们可以通过求偏导数，令目标函数对参数的偏导数等于零，求解出参数的最优解。

然而，对于复杂的非线性回归问题，解析方法通常不可行。

在实际应用中，最小二乘法通常使用迭代方法进行求解。

一种常用的迭代方法是梯度下降法。

梯度下降法通过反复进行参数更新的方式逐步降低目标函数的值，直到收敛到最优解。

具体而言，梯度下降法首先随机初始化参数的值，然后计算目标函数对于每个参数的偏导数，根据偏导数的方向更新参数的值。

迭代更新的过程可以通过下式表示：βₙ = βₙ - α(∂E/∂βₙ)其中，α 是学习率参数，控制每次更新参数的步长。

学习率需要适当选择，过小会导致收敛过慢，过大会导致震荡甚至不收敛。

最小二乘法除了可以用于线性回归问题，还可以用于其他类型的回归问题，比如多项式回归。

在多项式回归中，我们可以通过增加高次项来拟合非线性关系。

同样地，最小二乘法可以通过调整多项式的系数来使得拟合曲线与实际数据更加接近。

除了回归问题，最小二乘法还可以应用于其他领域，比如数据压缩、信号处理和统计建模等。

线性回归与最小二乘法

线性回归与最小二乘法线性回归是一种常用的统计分析方法，也是机器学习领域的基础之一。

在线性回归中，我们通过寻找最佳拟合直线来对数据进行建模和预测。

最小二乘法是线性回归的主要方法之一，用于确定最佳拟合直线的参数。

1. 线性回归的基本原理线性回归的目标是找到一条最佳拟合直线，使得预测值与实际值之间的误差最小。

我们假设线性回归模型的形式为：Y = β₀ + β₁X₁ +β₂X₂ + … + βₙXₙ + ε，其中Y是因变量，X₁、X₂等是自变量，β₀、β₁、β₂等是回归系数，ε是误差项。

2. 最小二乘法最小二乘法是一种求解线性回归参数的常用方法。

它的基本思想是使所有样本点到拟合直线的距离之和最小化。

具体来说，我们需要最小化残差平方和，即将每个样本点的预测值与实际值之间的差的平方求和。

3. 最小二乘法的求解步骤（1）建立线性回归模型：确定自变量和因变量，并假设它们之间存在线性关系。

（2）计算回归系数：使用最小二乘法求解回归系数的估计值。

（3）计算预测值：利用求得的回归系数，对新的自变量进行预测，得到相应的因变量的预测值。

4. 最小二乘法的优缺点（1）优点：最小二乘法易于理解和实现，计算速度快。

（2）缺点：最小二乘法对异常点敏感，容易受到离群值的影响。

同时，最小二乘法要求自变量与因变量之间存在线性关系。

5. 线性回归与其他方法的比较线性回归是一种简单而强大的方法，但并不适用于所有问题。

在处理非线性关系或复杂问题时，其他方法如多项式回归、岭回归、lasso回归等更适用。

6. 实际应用线性回归及最小二乘法广泛应用于各个领域。

在经济学中，线性回归用于预测GDP增长、消费者支出等经济指标。

在医学领域，线性回归被用于预测疾病风险、药物剂量等。

此外，线性回归还可以应用于电力负荷预测、房价预测等实际问题。

总结：线性回归和最小二乘法是统计学和机器学习中常用的方法。

线性回归通过拟合一条最佳直线，将自变量与因变量之间的线性关系建模。

最小二乘法一元线性回归

13
最小二乘法产生的历史
• 最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿（F.Gallton）——达尔文的表弟所创。 • 早年，道尔顿致力于化学和遗传学领域的研究。 • 他研究父亲们的身高与儿子们的身高之间的关系时，建立了回归分析法。
14
最小二乘法的地位与作用
• 现在回归分析法已远非道尔顿的本意 • 已经成为探索变量之间关系最重要的方法，用以找出变量之间关系的具体表现形式。 • 后来，回归分析法从其方法的数学原理——误差平方和最小（平方乃二乘也）出发，改称为最小二乘法。
• 五、随机干扰项服从正态分布。该假设给出了被解释变量的概率分布。 • 六、随机干扰项的期望值为0。即： • E（u）＝0 • 七、随机干扰项具有方差齐性。即： • 八、随机干扰项相互独立。 •
11
•
第二节模型参数的估计一、普通最小二乘法（ OLS 估计）通过协方差或相关系数证实变量之间存在关系，仅仅

i

(1) (2) 或 n xi (6)
23

na xi b yi 2 a xi b x i y i xi

(3) (4)
i i
a y x b x x y
185
180
175 Y
170
y
x
150 160 170
X
165
160 140
180
190
200
“回归”一词的由来
• 从图上虽可看出，个子高的父亲确有生出个子高的儿子的倾向，同样地，个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下： y a bx u

线性回归和最小二乘法

线性回归和最小二乘法线性回归是一种常见的统计分析方法，用于建立自变量和因变量之间的线性关系模型。

而最小二乘法则是线性回归的一种常用求解技术。

本文将详细介绍线性回归和最小二乘法的原理、应用和计算方法。

一、线性回归的原理线性回归假设自变量和因变量之间存在一个线性函数关系，即y = α + βx，其中α是截距，β是斜率。

线性回归的目标是找到最佳的α和β，使得模型能够准确地描述数据。

二、最小二乘法的原理最小二乘法是一种优化方法，用于通过最小化误差的平方和来确定回归系数。

假设有n个样本数据，标记为{(x1,y1),(x2,y2),...,(xn,yn)}，其中xi是自变量，yi是因变量。

最小二乘法的目标是使所有样本点到回归直线的距离之和最小化，即最小化误差E = Σ(yi - α - βxi)²。

三、线性回归的应用线性回归广泛应用于各个领域，特别是经济学、金融学和社会科学中。

它可以用来分析自变量和因变量之间的关系，预测未来的趋势和趋势的变化，评估变量对因变量的影响程度等。

四、最小二乘法的计算步骤1. 计算自变量和因变量的均值，分别记为x_mean和y_mean。

2. 计算自变量和因变量的差值与均值的乘积之和，分别记为Sxy。

3. 计算自变量的差值的平方和，记为Sxx。

4. 计算回归系数的估计值，β = Sxy / Sxx。

5. 计算截距的估计值，α = y_mean - β * x_mean。

6. 得到线性回归方程，y = α + βx。

五、线性回归的评估评估线性回归模型的好坏可以用均方误差（MSE）和决定系数（R²）来衡量。

MSE越小，表示模型拟合效果越好；R²越接近1，表示自变量对因变量的解释程度越高。

六、线性回归的局限性线性回归的前提是自变量和因变量之间存在线性关系，如果关系是非线性的，线性回归模型将失效。

此外，线性回归对异常值敏感，如果数据中存在异常值，模型的预测结果可能会受到影响。

最小二乘法求解线性回归问题

最小二乘法求解线性回归问题最小二乘法是回归分析中常用的一种模型估计方法。

它通过最小化样本数据与模型预测值之间的误差平方和来拟合出一个线性模型，解决了线性回归中的参数估计问题。

在本文中，我将详细介绍最小二乘法在线性回归问题中的应用。

一、线性回归模型在介绍最小二乘法之前，先了解一下线性回归模型的基本形式。

假设我们有一个包含$n$个观测值的数据集$(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)$，其中$x_i$表示自变量，$y_i$表示因变量。

线性回归模型的一般形式如下：$$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_px_p+\epsilon$$其中，$\beta_0$表示截距，$\beta_1,\beta_2,\dots,\beta_p$表示自变量$x_1,x_2,\dots,x_p$的系数，$\epsilon$表示误差项。

我们希望通过数据集中的观测值拟合出一个线性模型，即确定$\beta_0,\beta_1,\dots,\beta_p$这些未知参数的值，使得模型对未知数据的预测误差最小化。

二、最小二乘法的思想最小二乘法是一种模型拟合的优化方法，其基本思想是通过最小化优化问题的目标函数来确定模型参数的值。

在线性回归问题中，我们通常采用最小化残差平方和的方式来拟合出一个符合数据集的线性模型。

残差代表观测值与模型估计值之间的差异。

假设我们有一个数据集$(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)$，并且已经选定了线性模型$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_p x_p$。

我们希望选择一组系数$\beta_0,\beta_1,\dots,\beta_p$，使得模型对数据集中的观测值的预测误差最小，即最小化残差平方和（RSS）：$$RSS=\sum_{i=1}^n(y_i-\hat{y}_i)^2$$其中，$y_i$表示第$i$个观测值的实际值，$\hat{y}_i$表示该观测值在当前模型下的预测值。

最小二乘法OLS和线性回归

第二章最小二乘法（OLS）和线性回归模型
1
本章要点
最小二乘法的基本原理和计算方法
经典线性回归模型的基本假定
BLUE统计量的性质 t检验和置信区间检验的原理及步骤多变量模型的回归系数的F检验预测的类型及评判预测的标准好模型具有的特征
2
第一节
最小二乘法的基本属性
一、有关回归的基本介绍
金融、经济变量之间的关系，大体上可以分为两种：
（1）函数关系：Y=f(X1,X2,….,XP)，其中Y的值是由Xi（i=1,2….p）所唯一确定的。（2）相关关系: Y=f(X1,X2,….,XP) ，这里Y的值不能由Xi（i=1,2….p）精确的唯一确定。
3
图2-1 货币供应量和GDP散点图
注意：SRF中没有误差项，根据这一方程得到的是总体因变量的期望值
17
于是方程（2.7）可以写为：
ˆ ˆ ˆ yt xt ut
和残差项（
（2.9）
总体y值被分解为两部分：模型拟合值（
ˆ u t ）。
ˆ y）
18
3.线性关系对线性的第一种解释是指：y是x的线性函数，比如，y= x。对线性的第二种解释是指：y是参数的一个线性函数，它可以不是变量x的线性函数。 2 比如，y= x 就是一个线性回归模型，但 y x 则不是。
(一) 方法介绍
本章所介绍的是普通最小二乘法（ordinary least squares,简记OLS）;
最小二乘法的基本原则是：最优拟合直线应该使各点到直线的距离的和最小，也可表述为距离的平方和最小。
假定根据这一原理得到的α、β估计值为、， ˆ yt 。 xt ˆ ˆ ˆ 则直线可表示为

8.2.2一元线性回归模型的最小二乘估计课件(人教版)

ෝ =0.839x +28.957，令
ෝ=x，则
通过经验回归方程
x=179.733，即当父亲身高为179.733cm时，儿子的平均身
高与父亲的身高一样.
对于响应变量Y , 通过视察得到的数据称为观测值 , 通
ෝ为预测值. 视察值减去预测值称为
过经验回归方程得到的
残差.
残差是随机误差的估计结果，通过对残差的分析可判
෡ 叫做b，a的最小二乘估计．
求得的，ෝ
෡
ഥ); 与相关系数
易得: 经验回归直线必过样本中心(ഥ
,
r符号相同.
对于上表中的数据，利
用我们学过的公式可以计算出
෡
=0.839
，ෝ
=28.957，求出儿
子身高Y关于父亲身高x的经验
回归方程为
ŷ 0.839 x 28.957
相应的经验回归直线如图所示.
n i =1
n i =1
n
n
Q(a,b ) = ( yi - bxi - a ) = [ yi - bxi - ( y - bx ) + ( y - bx ) - a ]
2
i =1
n
2
i =1
= [( yi y ) b( xi - x ) + ( y - bx ) - a ]
2
i =1
i =1
综上，当a)( y y )
i
i
i =1
.
n
( x - x)
2
i
i =1
ˆ
ˆ
a
=
y

bx
时， Q到达最小.
ˆ aˆ 称为Y 关于x 的经验回归方程，也称

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.最小二乘法的原理最小二乘法的主要思想是通过确定未知参数（通常是一个参数矩阵），来使得真实值和预测值的误差（也称残差）平方和最小，其计算公式为E=\sum_{i=0}^ne_i^2=\sum_{i=1}^n(y_i-\hat{y_i})^2 ，其中 y_i 是真实值，\hat y_i 是对应的预测值。

如下图所示（来源于维基百科，Krishnavedala 的作品），就是最小二乘法的一个示例，其中红色为数据点，蓝色为最小二乘法求得的最佳解，绿色即为误差。

图1图中有四个数据点分别为：(1, 6), (2, 5), (3, 7), (4, 10)。

在线性回归中，通常我们使用均方误差来作为损失函数，均方误差可以看作是最小二乘法中的 E 除以m（m 为样本个数），所以最小二乘法求出来的最优解就是将均方误差作为损失函数求出来的最优解。

对于图中这些一维特征的样本，我们的拟合函数为h_\theta(x)=\theta_0+\theta_1x ，所以损失函数为J(\theta_0,\theta_1)=\sum_\limits{i=0}^m(y^{(i)}-h_\theta(x^{(i)}))^2=\sum_\limits{i=0}^m(y^{(i)}-\theta_0-\theta_1x^{(i)})^2 （这里损失函数使用最小二乘法，并非均方误差），其中上标(i)表示第 i 个样本。

2.最小二乘法求解要使损失函数最小，可以将损失函数当作多元函数来处理，采用多元函数求偏导的方法来计算函数的极小值。

例如对于一维特征的最小二乘法， J(\theta_0,\theta_1) 分别对 \theta_0 ， \theta_1 求偏导，令偏导等于 0 ，得：\frac{\partial J(\theta_0,\theta_1)}{\partial\theta_0}=-2\sum_\limits{i=1}^{m}(y^{(i)}-\theta_0-\theta_1x^{(i)}) =0\tag{2.1}\frac{\partial J(\theta_0,\theta_1)}{\partial\theta_1}=-2\sum_\limits{i=1}^{m}(y^{(i)}-\theta_0-\theta_1x^{(i)})x^{(i)} = 0\tag{2.2}联立两式，求解可得：\theta_0=\frac{\sum_\limits{i=1}^m(x^{(i)})^2\sum_\limits{i=1}^my^{(i)}-\sum_\limits{i=1}^mx^{(i)}\sum_\limits{i=1}^mx^{(i)}y^{(i)}}{m\sum_\limits{i=1}^m(x^{(i)})^2-(\sum_\limits{i=1}^mx^{(i)})^2} \tag{2.3}\theta_1=\frac{m\sum_\limits{i=1}^mx^{(i)}y^{(i)}-\sum_\limits{i=1}^mx^{(i)}\sum_\limits{i=1}^my^{(i)}}{m\sum_\limits{i=1}^m(x^{(i)})^2-(\sum_\limits{i=1}^mx^{(i)})^2} \tag{2.4}对于图 1 中的例子，代入公式进行计算，得： \theta_0 = 3.5, \theta_1=1.4,J(\theta) = 4.2 。

对于 n 维特征的样本，同样可以采用这种方式来求解。

对于特征维度 (x_1,x_2, \cdots,x_n) ，我们增加一个第 0 维 x_0=1 ，这样增广特征向量 x = (x_0,x_1,\cdots,x_n) ，增广权向量为 \theta = (\theta_0, \theta_1,\dots,\theta_n) .此时我们的拟合函数变为： h_\theta(x) = \sum_\limits{i=0}^n\theta_ix_i =\theta_0+ \theta_1x_1 + \cdots+\theta_nx_n \tag{2.5}损失函数变为：J(\theta)=\sum_\limits{j=1}^m(h_\theta(x^{(j)})-y^{(j)})^2=\sum_\limits{j=1}^m(\sum_\limits{i=0}^n\theta_ix_i^{(j)}-y^{(j)})^2\tag{2.6}损失函数分别对求偏导，得：\frac{\partialJ(\theta)}{\theta_i} = 2\sum_\limits{j=1}^m(h_\theta(x^{(j)})-y^{(j)})x^{(j)}=2\sum_\limits{j=1}^m(\sum_\limits{i=0}^n\theta_ix_i^{(j)}-y^{(j)})x^{(j)}\quad (i=0,1,\dots,n) \tag{2.7}令偏导等于 0，则有：\sum_\limits{j=1}^m(\sum_\limits{i=0}^n\theta_ix_i^{(j)}-y^{(j)})x^{(j)}=0\qquad (i=0,1,\dots,n) \tag{2.8}这样最终得到的结果就是一个线性方程组，未知数的个数为 n+1，方程的个数也为 n+1，这样就可以通过高斯消元法解出，具体可参见：详解最小二乘法原理和代码。

对于线性回归问题，我们可以依据拟合函数的形式进行特征空间变换，即广义线性回归。

例如，h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2^2 ，我们可以令 x_2:=x_2^2 ，这里 := 表示赋值，即将右边的值赋给左边。

这样又变成了我们所熟悉的拟合函数形式。

对于非线性回归问题，最小二乘法的思想同样适用，只不过函数形式有所变化。

例如，对于拟合函数 h_\theta(x)=\theta_0+\theta_1x+\theta_2l nx ，此时J(\theta)=\sum_\limits{j=1}^m(h_\theta(x^{(j)})-y^{(j)})^2 ，求偏导的结果为：\frac{\partialJ(\theta)}{\partial\theta_i}=2\sum_\limits{j=1}^{m}(h_\theta(x^{(j)})-y^{(j)})\frac{\partial h_\theta(x)}{\theta_i}\quad (i=0,1,2);其中\frac{\partial h_\theta(x)}{\theta_0} = 1, \frac{\partialh_\theta(x)}{\theta_2} = x, \frac{\partial h_\theta(x)}{\theta_2} = lnx同样可以构造线性方程组，用高斯消元法求解。

3.矩阵求解最小二乘法对于函数h_\theta(x)=\theta_0+\theta_1 x_1+\dots+\theta_n x_n ，我们将其用矩阵表示为：X\theta = Y \qquad \tag{3.1}其中，X = \left\{\begin{matrix} (x^{(1)})^T \\ (x^{(2)})^T \\ \vdots \\(x^{(m)})^T \end{matrix} \right\} , Y =\left\{\begin{matrix} y^{(1)} \\ y^{(2)} \\ \vdots \\y^{(m)}) \end{matrix} \right\},x^{(j)}=\left\{\begin{matrix} x_0^{(j)}) \\ x_1^{(j)} \\ \vdots \\ x_n^{(j)} \end{matrix} \right\}, \theta = \left\{\begin{matrix} \theta_0 \\ \theta_1 \\ \vdots \\ \theta_n \end{matrix} \right\}\tag{3.2}m 表示样本个数，n 为特征维度，，即的第一列全为 1，表示第 j 个样本的第 i 个特征，为增广样本矩阵((1+n)*m 维)，为真实值组成的列向量。

损失函数表示为：J(\theta)=\sum_\limits{j=1}^m(h_\theta(x^{(j)})-y^{(j)})^2=( − )^( − )\tag{3.3}根据最小二乘法，利用矩阵求导得：（具体推导参见线代随笔12-线性回归的矩阵推导和线性回归相关向量求导）\frac{\partialJ(\theta)}{\partial\theta}=2X^T(X\theta-Y)\tag{3.4}令求导结果等于 0 矩阵，可得：X^TX\theta = X^TY\quad\Rightarrow \quad \theta = (X^TX)^{-1}X^TY\tag{3.5}对于图 1 中的例子，利用公式计算得： \theta = \left\{\begin{matrix} 3.5 \\1.4\end{matrix} \right\}4.总结最小二乘法可以直接求解参数矩阵，在计算时可以直接套入公式。

但是仍有一定的局限性，主要体现在：1.的逆矩阵可能不存在，这个在 Matlab 中，可以通过求伪逆来进行计算。

2.对于式，可以将其看成一个线性方程组（假设各方程线性无关）。

如果样本个数 m 小于特征维数 n，那么此方程组有无穷多个解。

如果 m = n，有唯一解。

如果 m 大于 n，无解（即存在矛盾解）。

最小二乘法一般是在 m 大于 n 的时候使用，此时求出来的解是最优近似解。

3.最小二乘法的时间复杂度为，当 n 特别大的时候（一般大于 10000），求逆矩阵的过程非常复杂。

此时采用最小二乘法，会非常耗时。

参考链接：最小二乘法小结半小时学习最小二乘法。