最小二乘解

合集下载

最小二乘法公式计算公式

最小二乘法公式计算公式最小二乘法是一种常用的数据拟合方法，它通过最小化观测数据与拟合曲线之间的残差平方和，来确定拟合曲线的参数。

在数学领域中，最小二乘法通过求解线性方程组来确定问题的最优解。

本文将详细介绍最小二乘法的计算公式，并给出应用示例。

1. 最小二乘法的一般形式假设我们有一组观测数据，包括自变量x和因变量y。

我们希望找到一个拟合曲线，使得观测数据与该曲线的残差平方和最小。

拟合曲线的一般形式可以表示为：y = f(x, β) + ε其中，f(x, β)是关于自变量x和参数向量β的函数，ε是误差项。

根据最小二乘法的原理，我们需要最小化残差平方和:RSS(β) = Σ(y - f(x, β))^22. 最小二乘法的求解过程为了找到使得残差平方和最小的参数向量β，我们需要对该函数进行求导，并令导数为零。

首先，我们定义一个矩阵X，该矩阵的每一行表示一个观测数据的自变量，每一列表示一个参数。

类似地，我们定义一个向量y，其中每个元素对应一个观测数据的因变量。

拟合曲线可表示为：y = Xβ + ε将这个表达式代入残差平方和的公式中，得到：RSS(β) = (y - Xβ)T(y - Xβ)我们的目标是找到一个参数向量β，使得RSS最小化。

使用微积分的方法，我们可以对RSS进行求导，得到：∂RSS(β) / ∂β = -2X^T(y - Xβ) = 0通过上述求导结果，我们可以解得最小二乘法的估计量β的闭式解为：β = (X^TX)^(-1)X^Ty3. 应用示例让我们通过一个简单的线性回归示例来演示最小二乘法的应用。

假设我们有以下观测数据：x = [1, 2, 3, 4, 5]y = [2, 4, 5, 4, 5]我们希望通过最小二乘法来拟合一个线性模型y = β0 + β1x。

首先，我们将数据转换为矩阵形式：X = [[1, 1], [1, 2], [1, 3], [1, 4], [1, 5]]y = [[2], [4], [5], [4], [5]]接下来，我们可以计算参数向量β：β = (X^TX)^(-1)X^Ty计算过程如下：X^TX = [[5, 15], [15, 55]](X^TX)^(-1) = [[11, -3], [-3, 1]]X^Ty = [[20], [70]]将上述结果代入β的公式，即可计算得到具体的参数值：β = [[11, -3], [-3, 1]] * [[20], [70]] = [[1.1818], [3.2727]]因此，最小二乘法拟合出的线性模型为：y = 1.1818 + 3.2727x通过该模型，我们可以预测其他自变量对应的因变量的值。

矩阵论-第五章-广义逆及最小二乘

第五章广义逆及最小二乘解在应用上见得最频繁的、大约莫过于线性方程组了。

作一番调查或整理一批实验数据，常常归结为一个线性方程组：Ax b =然而是否是相容方程呢？倘若不是，又如何处理呢？最小二乘解是常见的一种处理方法。

其实它不过是最小二乘法的代数形式而已。

广义逆从1935年Moore 提出以后，未得响应。

据说： (S.L.Campbell ＆ C.D.Meyer.Jr Generalized Inverses of Linear Transformations 1979 P9)原因之一，可能是他给出的定义，有点晦涩。

其后，1955年Penrose 给出了现在大都采用的定义以后，对广义逆的研究起了影响，三十年来，广义逆无论在理论还是应用上都有了巨大发展，一直成为了线性代数中不可缺少的内容之一。

为了讨论的顺利进行，我们在第一节中先给出点准备，作出矩阵的奇值分解。

§5.1 矩阵的酉交分解、满秩分解和奇值分解在线行空间中，知道一个线性变换在不同基偶下的矩阵表示是相抵的或等价的。

用矩阵的语言来说，就是：若 ,m n A B C ×∈，倘有非异矩阵()P m n ×，()Q n n ×存在，使B PAQ =则称A 与B 相抵的或等价的。

利用初等变换容易证明m n A C ×∈，秩为r ，则必有P ，Q ，使000r m nI PAQ C ×⎛⎞=∈⎜⎟⎝⎠(5.1-1) 其中r I 是r 阶单位阵。

在酉空间中，上面的说法，当然也成立，如果加上P ，Q 是酉交阵的要求，情形又如何呢？下面就来讨论这个问题。

定理 5.1.1 (酉交分解) m n A C ×∈，且秩为r ，则(),(),,H H m n U m n V n n U U I V V I ∃××==，使00r HU AV Δ⎛⎞=×⎜⎟⎝⎠(m n) (5.1-2) 其中r Δ为r 阶非异下三角阵。

法方程组方法求解最小二乘解

法方程组方法求解最小二乘解标题:法方程组方法求解最小二乘解简介:本文将介绍法方程组方法在求解最小二乘问题中的应用。

通过对法方程组的推导和求解过程的详细阐述，以及实际案例的演示，展示了该方法在数据拟合和回归分析中的重要性和实用性。

正文:最小二乘法是一种常用的数据拟合和回归分析方法，其目标是通过找到最小化残差平方和的参数估计值来拟合数据。

在实际应用中，当数据点存在误差或噪声时，最小二乘法能够提供较为准确的参数估计结果。

法方程组方法是一种常用的求解最小二乘问题的方法。

首先，我们需要建立一个包含未知参数的线性方程组。

然后，通过对该方程组进行变换和求解，得到最小二乘解。

具体来说，我们以线性回归问题为例进行说明。

假设我们有一组包含自变量和因变量的数据点，我们的目标是找到一条最佳拟合直线来描述这些数据点之间的关系。

首先，我们可以假设这条直线的方程为y=ax+b，其中a和b是我们需要估计的未知参数。

然后，我们可以根据最小二乘法的原理，建立法方程组。

法方程组可以表示为X^T*X*P=X^T*Y，其中X是一个矩阵，包含自变量的数值；Y是一个向量，包含因变量的数值；P是一个向量，表示未知参数的估计值。

通过对法方程组进行变换和求解，我们可以得到最小二乘解。

具体的求解方法有很多，例如矩阵的逆运算、QR分解等。

这些方法在实际应用中都有其优缺点，需要根据具体情况选择适合的方法。

在实际应用中，法方程组方法可以广泛应用于各种数据拟合和回归分析问题。

例如，在经济学中，最小二乘法常被用于估计经济模型的参数；在物理学中，最小二乘法常被用于实验数据的拟合与分析。

总结起来，法方程组方法是一种求解最小二乘问题的有效方法。

通过对法方程组的建立和求解，我们可以得到最小二乘解，从而拟合数据和分析关系。

在实际应用中，我们需要根据具体情况选择合适的求解方法，以获得准确的参数估计结果。

超定方程组的最小二乘解原理

超定方程组，又称为过定方程组，是线性代数中的一个概念。

当方程组的未知数数量少于方程数量时，该方程组就被称为超定方程组。

由于超定方程组通常没有精确解，我们常常会寻求一个近似解，使得所有方程的残差平方和最小。

这就是最小二乘解的原理。

一、最小二乘解的基本概念最小二乘法是一种数学优化技术，它通过最小化误差的平方和来寻找数据的最佳函数匹配。

利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和最小。

最小二乘法还可用于曲线拟合，其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

二、超定方程组的性质对于超定方程组，由于方程数量多于未知数数量，因此通常不存在一个解能够使得所有方程同时成立。

这种情况下，我们需要寻找一个近似解，即一个解，使得所有方程的残差（即方程的实际值与解代入方程后得到的计算值之间的差）的平方和最小。

三、最小二乘解的原理最小二乘解的原理就是基于上述思想，通过最小化残差平方和来寻找超定方程组的近似解。

具体步骤如下：构建残差平方和函数：首先，我们需要构建一个表示残差平方和的函数。

假设超定方程组有(m) 个方程，(n) 个未知数（(m > n)），未知数的向量记作(\mathbf{x} = (x_1, x_2, \ldots, x_n)^T)，方程组的系数矩阵记作(\mathbf{A} = (a_{ij})_{m \times n})，常数项向量记作(\mathbf{b} = (b_1, b_2, \ldots, b_m)^T)。

那么，残差向量可以表示为(\mathbf{r} = \mathbf{A}\mathbf{x} - \mathbf{b})，残差平方和函数可以写为(S(\mathbf{x}) = \mathbf{r}^T\mathbf{r} = (\mathbf{A}\mathbf{x} - \mathbf{b})^T(\mathbf{A}\mathbf{x} - \mathbf{b}))。

matlab最小二乘解方程

matlab最小二乘解方程最小二乘法是求解线性方程组的一种有效方法，可以通过最小化误差平方和来得到最优解。

在MATLAB中，我们可以使用“\”操作符或者使用“pinv”函数来求解一个线性方程组的最小二乘解。

以下是关于如何在MATLAB中使用最小二乘法来求解线性方程组的详细内容:1. 使用“\”操作符使用“\”操作符可以很方便地求解一个线性方程组的最小二乘解。

例如，假设我们有一个由n个方程组成的线性方程组：Ax = b其中，A是一个m ×n的矩阵，x是一个n维向量，b是一个m维向量。

则它的最小二乘解为：x = (A' A)^(-1) A' b在MATLAB中，我们可以通过以下代码实现最小二乘解：A = [1 1 1; 2 3 4; 4 5 7; 5 6 8];b = [1; 2; 3; 4];x = A \ b;其中，反斜杠符号“\”表示求解线性方程组的最小二乘解。

2. 使用“pinv”函数除了使用“\”操作符，我们也可以使用MATLAB中的“pinv”函数来求解一个线性方程组的最小二乘解。

例如，我们可以通过以下代码实现最小二乘解：A = [1 1 1; 2 3 4; 4 5 7; 5 6 8];b = [1; 2; 3; 4];x = pinv(A) * b;其中，pinv函数表示求矩阵A的伪逆矩阵。

使用“pinv”函数来求解线性方程组的最小二乘解与使用“\”操作符的结果是等价的。

需要注意的是，在使用最小二乘法来求解线性方程组时，矩阵A的列应该是线性无关的，否则可能会出现唯一最小二乘解不存在的情况。

综上所述，MATLAB中使用最小二乘法来求解线性方程组非常简单。

我们可以通过“\”操作符或者“pinv”函数来求解一个线性方程组的最小二乘解。

最小二乘问题公式(一)

最小二乘问题公式(一)最小二乘问题公式1. 最小二乘问题简介最小二乘问题是一种统计学和数学中常见的优化问题。

它的目标是求解一个线性模型，使得模型中的实际观测值与模型预测值之间的残差的平方和最小。

2. 最小二乘问题公式最小二乘问题的公式可以表示为：∥Ax−b∥2minx其中，A是一个m×n的矩阵，x是一个n维列向量，b是一个m维列向量。

3. 相关公式下面列举一些与最小二乘问题相关的公式：正规方程最小二乘问题的解可以通过使用正规方程求解：x=(A T A)−1A T b这里，A T表示A的转置，A−1表示A的逆矩阵。

最小二乘解的闭式解对于线性模型 Ax =b ，当 A T A 是满秩矩阵时，最小二乘问题的解存在唯一的闭式解。

QR 分解法除了使用正规方程，还可以使用QR 分解法求解最小二乘问题。

使用QR 分解可以将最小二乘问题转化为一个更容易求解的等价问题。

广义逆矩阵最小二乘问题的解可以通过求解广义逆矩阵的方式得到：x =A †b这里，A † 是矩阵 A 的广义逆矩阵。

4. 示例解释假设有一组观测数据，其中 m =5 表示观测样本数量，n =2 表示模型参数数量。

我们可以将这些观测数据表示为矩阵 A 和列向量 b 。

通过求解最小二乘问题，可以得到模型的最优参数估计。

假设观测数据的矩阵表示为：A =[ 12345678910]观测数据的目标值列向量表示为：b=[3 7 11 15 19]根据最小二乘问题的公式，我们可以求解最优参数估计：x=(A T A)−1A T b带入具体数值计算后，得到最优参数估计为：x=[11]这表示线性模型的最优参数为x1=1和x2=1。

5. 总结最小二乘问题是一种常见的优化问题，用于求解线性模型的最优参数估计。

通过求解最小二乘问题的公式，可以得到模型的最优参数估计。

正规方程、闭式解、QR分解法和广义逆矩阵都是常用的求解最小二乘问题的方法。

用最小二乘法求解线性模型及对模型的分析

用最小二乘法求解线性模型及对模型的分析最小二乘法是一种常用于求解线性模型的数学方法。

在实际应用中，通过观测数据，我们希望找到一条最能拟合这些数据的直线，即线性模型。

接下来，将详细介绍最小二乘法的基本原理、步骤以及对模型的分析。

最小二乘法的基本原理是，通过最小化观测数据与模型预测值之间的差异来确定模型的参数。

这种差异可以用残差（residual）来度量，即实际观测值与模型预测值之间的差异。

最小二乘法的目标是找到一组参数，使得残差的平方和最小。

假设我们的线性模型为：y = a + bx其中，y是因变量，x是自变量，a和b是待求参数。

根据最小二乘法的原理，需要找到使得残差平方和最小的a和b。

最小二乘法的求解步骤如下：1. 根据已知的观测数据，得到一组样本点{(x1, y1), (x2,y2), ..., (xn, yn)}。

2. 使用线性模型对每个样本点进行预测，得到模型预测值yi = a + bxi。

3. 计算每个样本点的残差ei = yi - yi。

4.最小化残差平方和，即最小化目标函数：Q(a, b) = ∑(ei)^2 = ∑(yi - yi)^2其中，ei代表第i个样本点的残差。

5.对目标函数求偏导数，令偏导数为零，解得关于参数a和b的方程组。

6.求解方程组，得到a和b的估计值。

对于线性模型的分析，最小二乘法提供了一种可行的求解方法，同时也可以进行模型的评估和精度分析。

首先，通过最小二乘法求解得到的a和b的估计值可以用于建立线性模型的方程，从而对未知的因变量进行预测。

这样可以利用建立的模型进行进一步的分析和预测。

其次，对于得到的估计值，可以利用统计学方法进行检验。

常见的方法包括计算估计值的标准差、置信区间以及显著性检验等。

这些方法可以用来评估模型的可靠性和有效性，确定估计值的准确性。

此外，还可以通过分析残差来对模型进行进一步的评估。

残差反映了观测数据与模型预测值之间的差异，如果残差呈现其中一种特定的模式，可能暗示着模型存在问题。

的最小二乘解

的最小二乘解最小二乘解（Least squares solution）是一种线性方程组求解方法，它的目标是找到一个向量，使得这个向量和实际数据点间的误差平方和最小，因此也被称为“最小平方拟合”或者“最小误差平方和解”。

最小二乘解在多个领域中都有广泛的应用，如经济学、物理学、信号处理等。

一个线性方程组可以用矩阵和向量的乘积来表示，即 Ax = b，其中A是一个m×n的矩阵，x和b都是n维列向量。

如果A的行向量线性无关（也就是说没有冗余的等式），则称A为列满秩。

如果A的行向量不满秩，则Ax = b可能没有解，也可能有无限个解。

如果A的列向量是满秩的，则称A为行满秩，那么Ax = b只有一个解。

如果A既不是行满秩也不是列满秩，则称A为奇异的（singular）。

当A的列向量不满秩时，我们通常无法找到一个x，使得Ax = b。

但是在很多情况下，我们希望找到一个最接近的x，使得Ax与b之间的误差尽量小。

这就是最小二乘解的目标。

我们定义误差向量e = Ax - b，我们希望找到一个x，使得e的范数（也就是长度）最小。

因此，我们需要解决以下最小化问题：$$\min_{x} ||Ax-b||^{2}$$其中，$||\cdot||$表示向量的范数。

上述问题是一个无约束的最小二乘问题。

它的解为：$$x = (A^TA)^{-1}A^Tb$$这个解也被称为正规方程组（normal equations）的解。

正规方程组是一个n×n的矩阵，当A的列向量是满秩的时候，它是一个可逆矩阵，因此解存在且唯一。

但是如果A的列向量是线性相关的，那么正规方程组将不可逆，且解不唯一。

在这种情况下，我们需要使用其他的方法求解最小二乘解。

另一种求解最小二乘解的方法是QR分解（QR decomposition）。

QR分解将矩阵A分解为一个正交矩阵Q和一个上三角矩阵R的乘积，即A = QR。

正交矩阵Q的每一列都是单位向量，因此Q的转置和逆相等。

最小二乘解唯一的充要条件

最小二乘解唯一的充要条件
最小二乘解是线性最小二乘问题中的一种解法，用于求解形如Ax=b 的线性方程组，其中A是一个m×n的矩阵，x是一个n维列向量，b是一个m维列向量。

最小二乘解的特点是使得||Ax-b||^2达到最小，即最小化残差的平方和。

在线性最小二乘问题中，充要条件是使得矩阵A的秩等于n，即rank(A)=n。

这个条件确保了最小二乘解的存在性和唯一性。

假设存在两个不同的最小二乘解x1和x2，那么有Ax1=b和Ax2=b。

我们将这两个方程相减，得到A(x1-x2)=0。

由于矩阵A的列向量线性无关，所以只有当x1-x2=0时，方程才有解。

因此，最小二乘解是唯一的。

另一方面，如果矩阵A的秩小于n，即rank(A)<n，那么矩阵A的列向量线性相关。

这意味着方程组中存在冗余的信息，可以通过线性组合来表示出某些变量。

在这种情况下，方程组可能有无穷多个解，因此最小二乘解就不存在唯一性。

最小二乘解的唯一性对于实际问题的应用非常重要。

例如，在数据拟合问题中，我们常常使用最小二乘法来拟合一个数学模型到一组观测数据上。

如果最小二乘解不唯一，那么我们就无法确定一个唯一的拟合结果，这会给数据分析和模型建立带来困难。

总结起来，最小二乘解的唯一性的充要条件是矩阵A的秩等于n，即rank(A)=n。

这个条件保证了方程组中的变量能够被唯一地确定，从而确保了最小二乘解的存在性和唯一性。

在实际应用中，我们需要注意检查矩阵A的秩，以确保最小二乘解的唯一性。

最小二乘解

2
2
Ga * y 2 2cT GTGa * GT y) Gc 2
2
2
Ga * y 2 Gc 2 Ga * y 2
2
2
2
n
即：法方程组的解a使得Q s(xi ) yi 2达到最小！ i0
3 最小二乘解的唯一性
当0( x),1( x),L ,n ( x)线性无关时，则矩阵G 0 1 L n 列满秩
§1 最小二乘法
实例：考察某种纤维的强度与其拉伸倍数的关系,下表是实际测定的24个纤维样品的强度与相应的拉伸倍数的记录:
编拉伸
编拉伸倍
编拉伸倍强度
号倍数(x) 强度(y) 号数(x) 强度(y) 号数(x) (y)
1
1.9
1.4 9
5
5.5 17
4
4
2
2
1.3 10 5.2
5
18
4
拉伸倍数x强度y191455171310522118115519454225251263642046352728136521898527251471532265239581352726241081纤维强度随拉伸倍数增加而增加并且24个点大致分布在一条直线附近因此可以认为强度y与拉伸倍数x的主要关系应是线性关为待定参数其中找一种度量标准来衡量什么曲线最接近所有数据点一最小二乘法原理偏离程度大小的度量标与数据点作为衡量称为平方误差从而确定1中的待定系数求解yx
给出一组离散点，确定一个函数逼近原函数，插值是的一种手段。但在实际问题中，数据不可避免的会有误差，插值函数会将这些误差也包括在内。因此，我们需要一种新的逼近原函数的手段：
①不要求过所有的点（可以减小误差影响）； ②尽可能表现数据的趋势，靠近这些点。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关于线性方程组的解析解
线性方程组分为齐次线性方程组Ax=0和非齐次线性方程组Ax=b，其区别在于常数项是否为0向量。

此处x是n 维向量。

对于非齐次线性方程组，是否有解析解取决于A的增广矩阵(A|b)的秩。

分为以下几种情况：
.如果r(A)=r(A|b)=n，有唯一解。

这种情况下线性无关方程个数与未知数个数相同。

.如果r(A)=r(A|b)<n，有无穷多解。

这种情况下约束不够，线性无关方程个数小于未知数个数，因此有无穷多解。

.如果r(A)<r(A|b)，无解。

这种情况指没有向量x 能够同时满足Ax=b，因此通常只能求解最小二乘近似解，且前提是r(A)=n。

对于齐次线性方程组，是否有解析解直接取决于A 的秩。

分为以下几种情况：
.r(A)=n，且A为n*n 的方阵或线性无关方程个数与未知数个数相同，此时有且只有零解。

.r(A)<n，此时要么矩阵A 的行小于列，要么行向量线性相关，这种情况下约束不够，有无穷解。

.r(A)=n，且A为m行n列的矩阵，其中m>n（线性无关方程个数大于未知数个数），此时解析解也只有零解。

而通常这种情况我们想要求解其非零解，也只能通过最小二乘求解近似解。

事实上，我们在解决许多实际问题时，解析解只有零解或者无解，但我们又不得不求非零解时(尽管它不是完全准确)，我们就需要用到最小二乘法。

最小二乘求非齐次线性方程组
最小二乘估计，旨在求解误差平方和最小的非零解。

其原理在我的另一篇专栏里有专门介绍：地主：从零认识最小二乘法，这里直接抛出线性最小二乘法的公式：
x=(ATA)−1ATb
该公式针对非齐次线性方程组，可直接对ATA求逆，再右乘ATb得到x的最小二乘解。

当然此处ATA是否可逆取决于该方阵是否是满秩矩阵，即要求A满秩。

如果不是满秩矩阵，说明约束不够，仍无法得到可靠的最小二乘近似。

最小二乘求齐次线性方程组
然而，对于齐次线性方程组Ax=0的情况，由于b=0向量，我们无法直接通过线性最小二乘公式求解x的非零解。

那么是否就无解了呢，当然不是。

此时，我们通常有两种做法：
方法一：对矩阵A做SVD 分解，分解后V 的最后一列向量即为
Ax=0的最小二乘解。

方法二：求解ATA的特征向量和特征值，最小特征值对应的特征向量即为Ax=0的最小二乘解。

接下来我们先尝试使用方法一来展示计算的过程：
设系数矩阵A为4行3列的矩阵，具体数值如下(随机选择了[-10,10]区间内的12个数)，求解Ax=0的最小二乘解。

Ax=(3.52.7−3.11.6−5.7−6.03.7−0.81.94.3−9.86.9)x=0
首先，对A 做SVD 分解有：(如果不清楚SVD 分解，可查阅相关资料了解)
A=UΣVT=(0.1883−0.27120.7852−0.524−0.1673−0.9552−0.17860.1666−0.20760.06160.59010.7777−0.9450.10150.0584−0.3047)⋅
(13.4370008.44650005.328000)⋅(−0.33050.8106−0.4835−
0.21460.43430.87480.91910.39290.0304)
==>x=(0.9191,0.3929,0.0304)T
因此，取V的最后一列向量即VT的最后一行向量为x的最小二乘解。

最后我们把x带入Ax做矩阵乘法，有：
Ax=(3.52.7−3.11.6−5.7−6.03.7−0.81.94.3−9.86.9)⋅
(0.91910.39290.0304)=(4.1833−0.95183.1440.3113)
||Ax||2=28.4
我们发现，A与x相乘的结果并不是0向量，这亦说明不存在解析解满足Ax=0。

那么按照最小二乘法的思想，当前的x便已经是使得
Ax总误差最小时对应的x了。

另外大家心里应该会有疑问，这里计算的平方和为28.4，看上去和理想中的0 差距比较大？是的，这源于上述随机给定的样本信息太少，即系数矩阵A的行数过小，或者样本的
来源不够准确导致。

所以在实际应用中，要得到更好的近似，我们需
要尽可能提供更多的样本，与此同时亦要注意样本信息的可靠性，尽
可能移除噪声较大的样本信息。

以上，为大家展示了如何使用SVD 分解求解齐次线性方程组的最小二乘解。

同样的，如果我们使用方法二，即计算ATA最小特征值对应的
特征向量，其结果也应和上述结果一致。

为了知其然更知其所以然，
接下来就来为方法一做出证明，并说明方法二和方法一的一致性。

证明：对矩阵A做SVD 分解，分解后V 的最后一列向量即为Ax=0的最
小二乘解
设矩阵A为m行n列的矩阵，我们知道对于任意A，做SVD 分解有：A=UDVT=U[Σ0]VT
这里我们需要知道，U和V都是酋矩阵，D为奇异值按从大到小构建的对角阵，超过列数的行统一置位0。

因此对于Ax=0 ,有：
Ax=UDVT⋅x=0
由于U为酋矩阵，而酋矩阵为满秩方阵，因此结合上面我们提到的，对于齐次线性方程组Ax=0，如果A 为满秩方阵，那么x有唯一零解的结论。

因此结合上式，我们可推导得：
DVT⋅x=0
进一步简化，设VT⋅x=y，有Dy=0。

因此，我们既然要求解最小二乘解，结合最小二乘思想，此处变为求解||Dy||2=0的非零解y的过程。

我们将其展开有：
||Dy||2=yTDTDy=yT[Σ0][Σ0]y=[y1,y2,⋅⋅⋅,yn][σ12σ22⋅⋅⋅σn2][ y1y2⋅⋅⋅yn]
=σ12y12+σ22y22+⋅⋅⋅+σn2yn2
已知SVD分解后，奇异值满足如下关系：σ1≥σ2≥⋅⋅⋅≥σn≥0。

因此，要||Dy||2达到最小，且向量y为非零向量，那么一定有
y=[0,0,⋅⋅⋅,yn]T
那么结合VT⋅x=y，有x=V⋅y ( V为酋矩阵，满足V−1=VT )。

因
此，x的表达式变为：
x=Vy=[v1,v2,⋅⋅⋅,vn][y1y2⋅⋅⋅yn]=[v1,v2,⋅⋅⋅,vn][00⋅⋅⋅yn]=vn⋅yn
其中yn为一常量，我们知道对于齐次线性方程组而言，如果向量a是解，那么任意线性组合如k⋅a，仍是它的解。

因此x=vn，即SVD 分解后，V 的最后一列向量，此时最小二乘的误差最小。

A的SVD 分解与ATA的特征值特征向量的关系
首先，我们需要简单回顾一下特征值与特征向量：
如果对于任意方阵A，能够找到一个系数λ以及一个向量x，使得
Ax=λx
那么我们说x是方阵A 的特征向量，λ是特征向量x对应的特征值（简单理解特征值与特征向量：此时A 与向量x 的乘积并没有改变向量x 的方向，只改变了向量x 的长度）。

一个方阵可能有多个特征值，而多个特征值就对应多个特征向量（特征向量的个数大于等于特征值
的个数）。

假设求得n 个特征值[λ1,λ2,⋅⋅⋅,λn]，对应到特征向量
为[x1,x2,⋅⋅⋅,xn]，其中每一个xi均为一个列向量。

我们分别构建特征
值对应的对角阵Σ和特征向量构建的矩阵W，有
Σ=[λ1λ2⋅⋅⋅λn]
W=[x1,x2,⋅⋅⋅,xn]
那么结合Ax=λx，我们得到如下等式，即A的特征分解表达式：
AW=WΣ==>A=WΣW−1
进一步，由于特征向量是原空间经过线性变换后的方向向量，因此我
们可以对每个特征向量进行尺度缩放，令其模长为1（归一化），
即||xi||2=1。

那么此时构建的n个特征向量组成的矩阵W则为酋矩阵，并满足WT=W−1。

因此，A的特征分解表达式可改写为：
A=WΣWT
有了以上结论，我们就可以进一步去探寻ATA的特征值特征向量
与A的SVD 分解之间的关系了。

我们知道，A的SVD 分解结果为：
A=UDVT=U[Σ0]VT
因此
AT=VDTUT=V[Σ0]UT
那么有：
ATA=VDTUT⋅UDVT=VDT⋅DVT=VΣ2VT
因此我们发现对A做SVD 分解后的V矩阵正好是ATA的特征向量构建的矩阵W。

同时，奇异值和特征值之间是平方的关系，即λ=σ2。

结合前面证明了V的最后一列为齐次方程组的最小二乘解，而V的最后一列对应最小奇异值。

同时奇异值与特征值是平方关系，最小奇异值对应最小特征值，我们也得以证明ATA的最小特征值对应的特征向量亦为齐次方程组的最小二乘解。

相应的，对于SVD 分解与特征值特征向量的关系，我们还应该想到，A的SVD 分解结果亦可通过特征分解得到。

其中求解ATA的特征向量对应SVD 中的V；求解AAT的特征向量对应SVD 中的U；而D也可通过特征值求平方根得到；最后在构建UDVT个矩阵行列顺序的时候，按照奇异值σ从大到小的顺序构建。