线性回归推导及实例

合集下载

最小二乘法和线性回归的公式推导

最⼩⼆乘法和线性回归的公式推导⼀、⼀维线性回归⼀维线性回归最好的解法是：最⼩⼆乘法问题描述：给定数据集D=x1,y1,x2,y2,⋯,x m,y m，⼀维线性回归希望能找到⼀个函数f x i，使得f x i=wx i+b能够与y i尽可能接近。

损失函数：L(w,b)=m∑i=1f x i−y i2⽬标：w∗,b∗=argminw,bm∑i=1f x i−y i2=argminw,bm∑i=1y i−wx i−b2求解损失函数的⽅法很直观，令损失函数的偏导数为零，即：∂L(w,b)∂w=2m∑i=1y i−wx i−b−x i=2m∑i=1wx2i−y i−b x i=2wm∑i=1x2i−m∑i=1y i−b x i=0∂L(w,b)∂b=2m∑i=1wx i+b−y i=2mb−m∑i=1y i−wx i=0解上⼆式得：b=1mm∑i=1y i−wx iwm∑i=1x2i−m∑i=1y i−b x i=0wm∑i=1x2i−m∑i=1y i x i+1mm∑i=1y i−wx im∑i=1x i=0wm∑i=1x2i−m∑i=1y i x i+m∑i=1y i¯x i−wmm∑i=1x i2=0wm∑i=1x2i−1mm∑i=1x i2=m∑i=1y i x i−¯x i w=∑mi=1y i x i−¯x i∑mi=1x2i−1m∑mi=1x i2其中¯x i=1m∑mi=1x i为x i的均值⼆、多元线性回归假设每个样例x i有d个属性，即x i=x(1)ix(2)i⋮x(d)i{()()()}()()[()]()[()]()()()[()](())()(())()()()()[()]()()[()] []()()Processing math: 95%试图学得回归函数f x i，f x i=w T x i+b损失函数仍采⽤军⽅误差的形式，同样可以采⽤最⼩⼆乘法对x和b进⾏估计。

线性回归方程公式推导

线性回归方程公式推导从现代经济学研究看，线性回归是一种多变量经济分析方法，它能够用来研究变量之间的关系，以便确定哪些变量具有影响性。

线性回归模型是描述一个响应变量和一组predictor变量之间关系的线性关系模型。

线性回归模型有多种形式，其中最常见的是最小二乘法，即OLS，其核心思想是通过最小化以下损失函数来确定回归系数：S=1/n (yi-i)其中，yi是实际值，i是预测值，n是数据样本的个数。

有了线性回归模型，就可以推导出公式，即OLS回归方程。

它表述的意思是，假设回归系数β的值是已知的，即满足公式：β=(XX)^-1XY其中，X指的是一个有m个变量的矩阵，Y指的是一个有n个观测值的矩阵，X指的是X矩阵的转置矩阵，(XX)^-1指的是求XX的逆矩阵，XY指的是X和Y的点乘积。

由此，OLS回归模型就可以用变量yi=b1x1i+b2x2i+…+bpxpi+εi来表示，其中b1, b2,, bp分别是变量x1i, x2i,, xpi的回归系数，εi是误差项，它以期望值为零的正态分布的形式出现，表示随机噪声。

一般来说，OLS即可用来估计参数的可能性，但是，由于它们常常受到多重共线性的影响，因此需要检验其可靠性。

OLS的优点是可以提供一种最优的参数估计法，它能够有效地提高参数估计的准确性。

此外，OLS进行变量检验时，也可以有效地识别出具有影响性的变量。

不过，OLS也有其缺点，尤其是当数据存在某些问题时，可能会导致OLS的估计结果出现偏差。

主要问题包括多重共线性、异方差性和异常值。

对于这些问题，最好的解决方法是对数据进行相关性分析，从而将偏差减少到最小。

综上所述，OLS回归方程公式能够有效地描述变量之间的关系，检验其可靠性，以便确定哪些变量具有影响性。

为了确保其准确性，应当有效地处理多重共线性等问题，从而使得OLS具有更强的适用性。

贝叶斯线性回归的推导与应用

贝叶斯线性回归的推导与应用贝叶斯线性回归是一种基于贝叶斯统计学原理的回归模型。

它通过引入先验分布和后验分布来对线性回归进行建模，从而得到更准确的预测结果。

本文将对贝叶斯线性回归的推导过程和应用进行详细介绍。

一、推导1. 线性回归模型线性回归模型假设自变量x与因变量y之间存在线性关系，可以表示为：y = wx + b + ε其中，w是权重（系数），b是常数项，ε是误差项，服从均值为0、方差为σ^2的正态分布。

2. 先验分布贝叶斯线性回归引入先验分布来描述权重w和常数项b的不确定性。

假设先验分布为正态分布：p(w, b) = N(w|w0, V0) * N(b|b0, V0)其中，w0和b0为先验分布的均值，V0为先验分布的协方差矩阵。

3. 后验分布根据贝叶斯定理，后验分布可以表示为：p(w, b | D) = p(D | w, b) * p(w, b) / p(D)其中，D为已观测到的数据集。

4. 最大后验估计为了估计后验分布中的参数，我们采用最大后验估计（MAP）方法。

MAP估计等价于最小化负对数后验估计：(w*, b*) = argmin(-log(p(w, b | D)))根据先验和似然分布的定义，可以推导出MAP估计的目标函数为：L(w, b) = -log(p(D | w, b)) - log(p(w, b))具体推导过程较为复杂，这里不做详细介绍。

5. 参数更新为了最小化目标函数，我们可以使用梯度下降法进行参数更新。

根据目标函数的梯度，可以得到参数的更新规则为：w_new = w_old - α * (∂L/∂w)b_new = b_old - α * (∂L/∂b)其中，α为学习率。

二、应用贝叶斯线性回归在实际问题中具有广泛的应用。

以下以一个房价预测的案例来说明其应用过程。

假设我们有一组已知的房屋面积x和对应的售价y的数据，我们希望通过贝叶斯线性回归来预测未知房屋的售价。

1. 数据准备将已知的房屋面积x和售价y作为训练数据，构建数据集D。

线性回归方程推导

线性回归——正规方程推导过程线性回归——正规方程推导过程我们知道线性回归中除了利用梯度下降算法来求最优解之外，还可以通过正规方程的形式来求解。

首先看到我们的线性回归模型：f(xi)=wTxif(x_i)=w^Tx_if(xi?)=wTxi?其中w=(w0w1.wn)w=begin{pmatrix}w_0w_1.w_nend{pmatrix}w=?w0?w1?. wn?，xi=(x0x1.xn)x_i=begin{pmatrix}x_0x_1.x_nend{pmatrix}xi?=?x0 x1.xn，m表示样本数，n是特征数。

然后我们的代价函数(这里使用均方误差)：J(w)=∑i=1m(f(xi)?yi)2J(w)=sum_{i=1}^m(f(x_i)-y_i)^2J(w) =i=1∑m?(f(xi?)?yi?)2接着把我的代价函数写成向量的形式：J(w)=(Xw?y)T(Xw?y)J(w)=(Xw-y)^T(Xw-y)J(w)=(Xw?y)T(Xw?y) 其中X=(1x11x12?x1n1x21x22?x2n?1xm1xm2?xmn)X=begin{pmatrix}1 x_{11} x_{12} cdots x_{1n}1 x_{21} x_{22} cdots x_{2n}vdots vdots vdots ddots vdots1 x_{m1} x_{m2} cdots x_{mn}end{pmatrix}X=?11?1?x11?x21?xm1?x12?x22?xm2?x1n?x2n?xmn?最后我们对w进行求导，等于0，即求出最优解。

在求导之前，先补充一下线性代数中矩阵的知识：1.左分配率：A(B+C)=AB+ACA(B+C) = AB+ACA(B+C)=AB+AC；右分配率：(B+C)A=BA+CA(B+C)A = BA + CA(B+C)A=BA+CA2.转置和逆：(AT)?1=(A?1)T(A^T)^{-1}=(A^{-1})^T(AT)?1=(A?1)T，(AT)T=A(A^T)^T=A(AT)T=A3.矩阵转置的运算规律：(A+B)T=AT+BT(A+B)^T=A^T+B^T(A+B)T=AT+BT；(AB)T=BTAT(AB)^T=B^TA^T(AB)T=BTAT然后介绍一下常用的矩阵求导公式：1.δXTAXδX=(A+AT)Xfrac{delta X^TAX}{delta X}=(A+A^T)XδXδXTAX?=(A+AT)X2.δAXδX=ATfrac{delta AX}{delta X}=A^TδXδAX?=AT3.δXTAδX=Afrac{delta X^TA}{delta X}=AδXδXTA?=A然后我们来看一下求导的过程：1.展开原函数，利用上面的定理J(w)=(Xw?y)T(Xw?y)=((Xw)T?yT)(Xw?y)=wTXTXw?wTXTy?yTXw+yT yJ(w)=(Xw-y)^T(Xw-y)=((Xw)^T-y^T)(Xw-y)=w^TX^TXw-w^TX^Ty-y^TXw+y^TyJ(w)=(Xw?y)T(Xw?y)=((Xw)T?yT)(Xw?y)=wTXTXw?wTXTy?yT Xw+yTy2.求导，化简得，δJ(w)δw=(XTX+(XTX)T)w?XTy?(yTX)T=0?2XTXw?2XTy=0?XTXw=X Ty?w=(XXT)?1XTyfrac{delta J(w)}{delta w}=(X^TX+(X^TX)^T)w-X^Ty-(y^TX)^T=0implies2X^TXw-2X^Ty=0implies X^TXw=X^Tyimplies w=(XX^T)^{-1}X^TyδwδJ(w)?=(XTX+(XTX)T)w?XTy?(yTX)T=0?2XTX w?2XTy=0?XTXw=XTy?w=(XXT)?1XTy最后补充一下关于矩阵求导的一些知识，不懂可以查阅：矩阵求导、几种重要的矩阵及常用的矩阵求导公式这次接着一元线性回归继续介绍多元线性回归，同样还是参靠周志华老师的《机器学习》，把其中我一开始学习时花了较大精力弄通的推导环节详细叙述一下。

各种线性回归模型原理

各种线性回归模型原理线性回归是一种广泛应用于统计学和机器学习领域的方法，用于建立自变量和因变量之间线性关系的模型。

在这里，我将介绍一些常见的线性回归模型及其原理。

1. 简单线性回归模型（Simple Linear Regression）简单线性回归模型是最简单的线性回归模型，用来描述一个自变量和一个因变量之间的线性关系。

模型方程为：Y=α+βX+ε其中，Y是因变量，X是自变量，α是截距，β是斜率，ε是误差。

模型的目标是找到最优的α和β，使得模型的残差平方和最小。

这可以通过最小二乘法来实现，即求解最小化残差平方和的估计值。

2. 多元线性回归模型（Multiple Linear Regression）多元线性回归模型是简单线性回归模型的扩展，用来描述多个自变量和一个因变量之间的线性关系。

模型方程为：Y=α+β1X1+β2X2+...+βnXn+ε其中，Y是因变量，X1,X2,...,Xn是自变量，α是截距，β1,β2,...,βn是自变量的系数，ε是误差。

多元线性回归模型的参数估计同样可以通过最小二乘法来实现，找到使残差平方和最小的系数估计值。

3. 岭回归（Ridge Regression）岭回归是一种用于处理多重共线性问题的线性回归方法。

在多元线性回归中，如果自变量之间存在高度相关性，会导致参数估计不稳定性。

岭回归加入一个正则化项，通过调节正则化参数λ来调整模型的复杂度，从而降低模型的过拟合风险。

模型方程为：Y=α+β1X1+β2X2+...+βnXn+ε+λ∑βi^2其中，λ是正则化参数，∑βi^2是所有参数的平方和。

岭回归通过最小化残差平方和和正则化项之和来估计参数。

当λ=0时，岭回归变为多元线性回归，当λ→∞时，参数估计值将趋近于0。

4. Lasso回归（Lasso Regression）Lasso回归是另一种用于处理多重共线性问题的线性回归方法，与岭回归不同的是，Lasso回归使用L1正则化，可以使得一些参数估计为0，从而实现特征选择。

线性回归方程推导

线性回归方程推导线性回归——正规方程推导过程线性回归——正规方程推导过程我们知道线性回归中除了利用梯度下降算法来求最优解之外，还可以通过正规方程的形式来求解。

首先看到我们的线性回归模型：f(xi)=wTxif(x_i)=w^Tx_if(xi?)=wTxi?其中w=(w0w1.wn)w=begin{pmatrix}w_0w_1.w_nend{pmatrix}w=?w0 w1. wn?，xi=(x0x1.xn)x_i=begin{pmatrix}x_0x_1.x_nend{pmatrix}xi?=?x0 ?x 1?.xn?，m表示样本数，n是特征数。

然后我们的代价函数(这里使用均方误差)：J(w)=∑i=1m(f(xi)?yi)2J(w)=sum_{i=1}^m(f(x_i)-y_i)^2J(w)=i=1∑m?(f(xi?)?yi?)2接着把我的代价函数写成向量的形式：J(w)=(Xw?y)T(Xw?y)J(w)=(Xw-y)^T(Xw-y)J(w)=(Xw?y)T(Xw?y) 其中X=(1x11x12?x1n1x21x22?x2n?1xm1xm2?xmn)X=begin{pmatrix}1 x_{11} x_{12} cdots x_{1n}1 x_{21} x_{22} cdots x_{2n}vdots vdots vdots ddots vdots1 x_{m1} x_{m2} cdots x_{mn}end{pmatrix}X=?11?1?x11?x21?xm1?x12?x22?xm2?x1n?x2n xmn最后我们对w进行求导，等于0，即求出最优解。

在求导之前，先补充一下线性代数中矩阵的知识：1.左分配率：A(B+C)=AB+ACA(B+C) = AB+ACA(B+C)=AB+AC；右分配率：(B+C)A=BA+CA(B+C)A = BA+ CA(B+C)A=BA+CA2.转置和逆：(AT)?1=(A?1)T(A^T)^{-1}=(A^{-1})^T(AT)?1=(A?1)T，(AT)T=A(A^T)^T=A(AT)T=A3.矩阵转置的运算规律：(A+B)T=AT+BT(A+B)^T=A^T+B^T(A+B)T=AT+BT；(AB)T=BTAT(AB)^T=B^TA^T(AB)T=BTAT然后介绍一下常用的矩阵求导公式：1.δXTAXδX=(A+AT)Xfrac{delta X^TAX}{delta X}=(A+A^T)XδXδXTAX?=(A+AT)X2.δAXδX=ATfrac{delta AX}{delta X}=A^TδXδAX?=AT3.δXTAδX=Afrac{delta X^TA}{delta X}=AδXδXTA?=A然后我们来看一下求导的过程：1.展开原函数，利用上面的定理J(w)=(Xw?y)T(Xw?y)=((Xw)T?yT)(Xw?y)=wTXTXw?wTXTy?yTX w+yT yJ(w)=(Xw-y)^T(Xw-y)=((Xw)^T-y^T)(Xw-y)=w^TX^TXw-w^TX^Ty-y^TXw+y^TyJ(w)=(Xw?y)T(Xw?y)=((Xw)T?yT)(Xw?y)=wTXTXw? wTXTy?yT Xw+yTy2.求导，化简得，δJ(w)δw=(XTX+(XTX)T)w?XTy?(yTX)T=0?2XTXw?2XTy=0?XT Xw=X Ty?w=(XXT)?1XTyfrac{delta J(w)}{delta w}=(X^TX+(X^TX)^T)w-X^Ty-(y^TX)^T=0implies2X^TXw-2X^Ty=0implies X^TXw=X^Tyimplies w=(XX^T)^{-1}X^TyδwδJ(w)?=(XTX+(XTX)T)w?XTy?(yTX)T=0?2XTXw?2XTy=0?XTXw=XTy?w=(XXT)?1XTy最后补充一下关于矩阵求导的一些知识，不懂可以查阅：矩阵求导、几种重要的矩阵及常用的矩阵求导公式这次接着一元线性回归继续介绍多元线性回归，同样还是参靠周志华老师的《机器学习》，把其中我一开始学习时花了较大精力弄通的推导环节详细叙述一下。

线性回归方程公式推导过程

线性回归方程公式推导过程公式是数学题目的解题关键，那么线性回归方程公式推导过程是什么呢?下面是由小编为大家整理的“线性回归方程公式推导过程”，仅供参考，欢迎大家阅读。

线性回归方程公式推导过程假设线性回归方程为： y=ax+b (1)，a,b为回归系数,要用观测数据(x1,x2,...,xn和y1,y2,...,yn)确定之。

为此构造Q(a,b)=Σ(i=1->n)[yi-(axi+b)]^2 (2)，使Q(a,b)取最小值的a,b为所求。

令：∂Q/∂a= 2Σ(i=1->n)[yi-(axi+b)](-xi)= 0 (3)，∂Q/∂b= 2Σ(i=1->n)[yi-(axi+b)] = 0 (4)，根据(3)、(4)解出a ,b就确定了回归方程(1)：a Σ (Xi)² +b Σ Xi = Σ Xi Yi (5)；a Σ Xi +b n = Σ Yi (6)；由(5)(6)解出a,b便是。

//这一步就省略了。

拓展阅读：线性回归方程的分析方法分析按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。

如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

线性回归方程的例题求解用最小二乘法估计参数b,设服从正态分布,分别求对a、b的偏导数并令它们等于零，得方程组解得。

其中，且为观测值的样本方差.线性方程称为关于的线性回归方程,称为回归系数,对应的直线称为回归直线.顺便指出,将来还需用到,其中为观测值的样本方差。

先求x,y的平均值。

利用公式求解：b=把x,y的平均数带入a=y-bx。

求出a=是总的公式y=bx+a线性回归方程y=bx+a过定点。

(x为xi的平均数，y为yi的平均数)。

高中数学：线性回归方程

高中数学：线性回归方程一、推导2个样本点的线性回归方程例1、设有两个点A（x1，y1），B（x2，y2），用最小二乘法推导其线性回归方程并进行分析。

解：由最小二乘法，设，则样本点到该直线的“距离之和”为从而可知：当时，b有最小值。

将代入“距离和”计算式中，视其为关于b的二次函数，再用配方法，可知：此时直线方程为：设AB中点为M，则上述线性回归方程为可以看出，由两个样本点推导的线性回归方程即为过这两点的直线方程。

这和我们的认识是一致的：对两个样本点，最好的拟合直线就是过这两点的直线。

上面我们是用最小二乘法对有两个样本点的线性回归直线方程进行了直接推导，主要是分别对关于a和b的二次函数进行研究，由配方法求其最值及所需条件。

实际上，由线性回归系数计算公式：可得到线性回归方程为设AB中点为M，则上述线性回归方程为。

二、求回归直线方程例2、在硝酸钠的溶解试验中，测得在不同温度下，溶解于100份水中的硝酸钠份数的数据如下0 4 10 15 21 29 36 51 6866.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1描出散点图并求其回归直线方程.解：建立坐标系，绘出散点图如下：由散点图可以看出：两组数据呈线性相关性。

设回归直线方程为：由回归系数计算公式：可求得：b=0.87，a=67.52，从而回归直线方程为：y=0.87x+67.52。

三、综合应用例3、假设关于某设备的使用年限x和所支出的维修费用y（万元）有如下统计资料：（1）求回归直线方程；（2）估计使用10年时，维修费用约是多少？解：（1）设回归直线方程为：（2）将x = 10代入回归直线方程可得y = 12.38，即使用10年时的维修费用大约是12.38万元。

线性回归方程b的公式推导

线性回归方程b的公式推导线性回归方程b是统计学中一种重要的回归分析技术，它是为了预测一个或多个变量之间的关系而拟合的数学模型，它可以帮助我们更好地理解模型中的变量之间的特定关系，并可以用来预测未知的分类问题。

线性回归方程b属于传统的机器学习算法之一，广泛用于各行各业。

线性回归方程b的定义为：Y或者Yi是解释变量，X者 Xi解释变量，b系数，u残差项。

如果某一变量Yi具有另一变量Xi的线性拟合关系，则Yi可以用Xi来描述，这个关系可以用线性回归方程b 来表达：Yi = bX1 + bX2 + + bXn + u。

线性回归模型的参数b又分成两部分，一部分是回归系数，是描述变量的关系的，一部分是残差项，即残差是形成的拟合曲线的垂直距离，表示因为未知的原因而无法拟合的数据。

有了线性回归方程b，此时我们就可以开始推导线性回归方程b 的公式来求解回归系数b了。

首先，将方程Yi = bX1 + bX2 + + bXn + u转换为矩阵形式，Yi = BX + u，其中，B为系数矩阵（由回归系数b组成），X为自变量矩阵（由解释变量Xi组成），u为残差项。

接着，在只有唯一解的前提下，可用最小二乘法（OLS）来求解回归系数b的值：BOLS=(XX)^(-1)XY，其中XX是X的转置矩阵乘以X矩阵为正定阵，XY是X的转置矩阵乘以Y矩阵。

有了上述的公式，我们就可以进行求解回归系数b的值了。

回归系数b的求解可分为以下几步：首先，从样本中抽取多个解释变量和一个被解释变量；然后，计算XX和XY；接下来，计算BOLS，即（XX）^(-1)XY；最后，根据BOLS确定其中的回归系数b。

以上就是线性回归方程b的推导过程。

线性回归方程b不仅可以用于求解拟合程度，而且可以用来预测未知的数据。

此外，它也不仅仅可以用于线性回归，还可以用于其他类型的回归分析，比如多项式回归、局部加权回归、非线性回归等。

以上就是关于线性回归方程b推导公式的相关内容，线性回归方程b是统计学中一种重要的回归分析技术，它可以用来推导回归系数b的计算，并可以用来预测未知的分类问题。

线性回归方程推导

线性回归之最小二乘法线性回归Linear Regression——线性回归是机器学习中有监督机器学习下的一种简单的回归算法。

分为一元线性回归(简单线性回归)和多元线性回归,其中一元线性回归是多元线性回归的一种特殊情况,我们主要讨论多元线性回归如果因变量和自变量之间的关系满足线性关系(自变量的最高幂为一次),那么我们可以用线性回归模型来拟合因变量与自变量之间的关系.简单线性回归的公式如下:y^=ax+b hat y=ax+by^?=ax+b多元线性回归的公式如下:y^=θTx hat y= theta^T x y^?=θTx上式中的θthetaθ为系数矩阵,x为单个多元样本.由训练集中的样本数据来求得系数矩阵,求解的结果就是线性回归模型,预测样本带入x就能获得预测值y^hat yy^?,求解系数矩阵的具体公式接下来会推导.推导过程推导总似然函数假设线性回归公式为y^=θxhat y= theta xy^?=θx.真实值y与预测值y^hat yy^?之间必然有误差?=y^?yepsilon=haty-y?=y^?y,按照中心极限定理(见知识储备),我们可以假定?epsilon?服从正态分布,正态分布的概率密度公式为:ρ(x)=1σ2πe?(x?μ)22σ2rho (x)=frac {1}{sigmasqrt{2pi}}e^{-frac{(x-mu)^2}{2sigma^2}}ρ(x)=σ2π1e2σ2(x?μ)2?为了模型的准确性,我们希望?epsilon?的值越小越好,所以正态分布的期望μmuμ为0.概率函数需要由概率密度函数求积分,计算太复杂,但是概率函数和概率密度函数呈正相关,当概率密度函数求得最大值时概率函数也在此时能得到最大值,因此之后会用概率密度函数代替概率函数做计算.我们就得到了单个样本的误差似然函数(μ=0,σmu=0,sigmaμ=0,σ为某个定值):ρ(?)=1σ2πe?(?0)22σ2rho (epsilon)=frac {1}{sigmasqrt{2pi}}e^{-frac{(epsilon-0)^2}{2sigma^2}}ρ(?)=σ2π?1?e?2σ2(?0)2?而一组样本的误差总似然函数即为:Lθ(?1,?,?m)=f(?1,?,?m∣μ,σ2)L_theta(epsilon_1,cdots,e psilon_m)=f(epsilon_1,cdots,epsilon_m|mu,sigma^2)Lθ?(?1?,? ,?m?)=f(?1?,?,?m?∣μ,σ2)因为我们假定了?epsilon?服从正态分布,也就是说样本之间互相独立,所以我们可以把上式写成连乘的形式:f(?1,?,?m∣μ,σ2)=f(?1∣μ,σ2)?f(?m∣μ,σ2)f(epsilon_1,cdots,epsilon_m|mu,sigma^2)=f(epsilon_1|mu,sigma^2)*cdots *f(epsilon_m|mu,sigma^2)f(?1?,?,?m?∣μ,σ2)=f(?1?∣μ,σ2)?f(?m?∣μ,σ2) Lθ(?1,?,?m)=∏i=1mf(?i∣μ,σ2)=∏i=1m1σ2πe?(?i?0)22σ2L_theta(epsilon_1,cdots,epsilon_m)=prod^m_{i=1}f(epsilon _i|mu,sigma^2)=prod^m_{i=1}frac{1}{sigmasqrt{2pi}}e^{-frac{(epsilon_i-0)^2}{2sigma^2}}Lθ? (?1?,?,?m?)=i=1∏m?f(?i?∣μ,σ2)=i=1∏m?σ2π?1?e?2σ2(?i?0)2?在线性回归中,误差函数可以写为如下形式:i=∣yiy^i∣=∣yiθTxi∣epsilon_i=|y_i-haty_i|=|y_i-theta^Tx_i|?i?=∣yi?y^?i?∣=∣yi?θTxi?∣最后可以得到在正态分布假设下的总似然估计函数如下:Lθ(?1,?,?m)=∏i=1m1σ2πe?(?i?0)22σ2=∏i=1m1σ2πe?(yi θTxi)22σ2L_theta(epsilon_1,cdots,epsilon_m)=prod^m_{i=1} frac{1}{sigmasqrt{2pi}}e^{-frac{(epsilon_i-0)^2}{2sigma^2}}=pro d^m_{i=1}frac{1}{sigmasqrt{2pi}}e^{-frac{(y_i-theta^Tx_i)^2}{2sigma^2}}L θ?(?1?,?,?m?)=i=1∏m?σ2π?1?e?2σ2(?i?0)2?=i=1∏m?σ2π?1 e2σ2(yi?θTxi?)2?推导损失函数按照最大总似然的数学思想(见知识储备),我们可以试着去求总似然的最大值.遇到连乘符号的时候,一般思路是对两边做对数运算(见知识储备),获得对数总似然函数:l(θ)=loge(Lθ(?1,?,?m))=loge(∏i=1m1σ2πe?(yi?θTxi)22σ2)l(theta)=log_e(L_theta(epsilon_1,cdots,epsilon_m))=log_ e(prod^m_{i=1}frac{1}{sigmasqrt{2pi}}e^{-frac{(y_i-theta^Tx_i)^2}{2sigma^2}}) l(θ)=loge?(Lθ?(?1?,?,?m?))=loge?(i=1∏m?σ2π?1?e?2σ2(yi θTxi?)2?)l(θ)=loge(∏i=1m1σ2πe?(yi?θTxi)22σ2)=∑i=1mloge1σ2πexp(?(yi?θTxi)22σ2)=mloge1σ2π?12σ2∑i=1m(yi?θTxi)2l (theta) = log_e(prod^m_{i=1}frac {1}{sigmasqrt{2pi}}e^{-frac{(y_i-theta^Tx_i)^2}{2sigma^2}}) = sum_{i=1}^mlog_efrac {1}{sigmasqrt{2pi}}exp({-frac{(y_i-theta^Tx_i)^2}{2sigma^2} })=mlog_efrac{1}{sigmasqrt{2pi}}-frac{1}{2sigma^2}sum^m_{i= 1}(y^i-theta^Tx^i)^2l(θ)=loge?(i=1∏m?σ2π?1?e?2σ2(yi?θTxi?)2?)=i=1∑m?loge?σ2π?1?exp(?2σ2(yi?θTxi?)2?)=mloge?σ2π?1?2σ21?i=1∑m?(yi?θTxi)2前部分是一个常数,后部分越小那么总似然值越大,后部分则称之为损失函数,则有损失函数的公式J(θ)J(theta)J(θ):J(θ)=12∑i=1m(yi?θTxi)2=12∑i=1m(yi?hθ(xi))2=12∑i=1m (hθ(xi)?yi)2J(theta)=frac{1}{2}sum^m_{i=1}(y^i-theta^Tx^i)^2=frac{1}{2} sum^m_{i=1}(y^i-h_theta(x^i))^2=frac{1}{2}sum^m_{i=1}(h_the ta(x^i)-y^i)^2J(θ)=21?i=1∑m?(yi?θTxi)2=21?i=1∑m?(yi?hθ?(xi))2=21?i=1∑m?(hθ?(xi)?yi)2解析方法求解线性回归要求的总似然最大,需要使得损失函数最小,我们可以对损失函数求导.首先对损失函数做进一步推导:J(θ)=12∑i=1m(hθ(xi)?yi)2=12(Xθ?y)T(Xθ?y)J(theta)=fr ac{1}{2}sum^m_{i=1}(h_theta(x^i)-y^i)^2=frac{1}{2}(Xtheta-y )^T(Xtheta-y)J(θ)=21?i=1∑m?(hθ?(xi)?yi)2=21?(Xθ?y)T(Xθy)注意上式中的X是一组样本形成的样本矩阵,θthetaθ是系数向量,y也是样本真实值形成的矩阵,这一步转换不能理解的话可以试着把12(Xθ?y)T(Xθ?y)frac{1}{2}(Xtheta-y)^T(Xtheta-y)21?(Xθ?y) T(Xθ?y)带入值展开试试.J(θ)=12∑i=1m(hθ(xi)?yi)2=12(Xθ?y)T(Xθ?y)=12((Xθ)T? yT)(Xθ?y)=12(θTXT?yT)(Xθ?y)=12(θTXTXθ?yTXθ?θTXTy+yTy)J(theta)=frac{1}{2}sum^m_{i=1}(h_theta(x^i)-y^i)^2=frac{1} {2}(Xtheta-y)^T(Xtheta-y)=frac{1}{2}((Xtheta)^T-y^T)(Xtheta -y)=frac{1}{2}(theta^TX^T-y^T)(Xtheta-y)=frac{1}{2}(theta^T X^TXtheta-y^TXtheta-theta^TX^Ty+y^Ty)J(θ)=21?i=1∑m?(hθ?( xi)?yi)2=21?(Xθ?y)T(Xθ?y)=21?((Xθ)T?yT)(Xθ?y)=21?(θTXT yT)(Xθ?y)=21?(θTXTXθ?yTXθ?θTXTy+yTy)根据黑塞矩阵可以判断出J(θ)J(theta)J(θ)是凸函数,即J(θ)J(theta)J(θ)的对θthetaθ的导数为零时可以求得J(θ)J(theta)J(θ)的最小值.J(θ)?θ=12(2XTXθ?(yTX)T?XTy)=12(2XTXθ?XTy?XTy)=XTXθXTyfrac{partialJ(theta)}{partialtheta}=frac{1}{2}(2X^TXtheta-(y^TX)^T-X^Ty )=frac{1}{2}(2X^TXtheta-X^Ty-X^Ty)=X^TXtheta-X^Ty?θ?J(θ)? =21?(2XTXθ?(yTX)T?XTy)=21?(2XTXθ?XTy?XTy)=XTXθ?XTy 当上式等于零时可以求得损失函数最小时对应的θthetaθ,即我们最终想要获得的系数矩阵:XTXθ?XTy=0XTXθ=XTy((XTX)?1XTX)θ=(XTX)?1XTyEθ=(XTX)?1 XTyθ=(XTX)?1XTyX^TXtheta-X^Ty=0X^TXtheta=X^Ty((X^TX)^{-1}X^TX)theta=(X^TX)^{-1}X^TyEtheta=(X^TX)^{-1}X^Tytheta=(X^TX)^{-1}X^TyXTXθ?XTy=0XT Xθ=XTy((XTX)?1XTX)θ=(XTX)?1XTyEθ=(XTX)?1XTyθ=(XTX)?1XTy (顺便附上一元线性回归的系数解析解公式:θ=∑i=1m(xi?x￣)(yi?y￣)∑i=1m(xi?x ￣)2theta=frac{sum^m_{i=1}(x_i-overline{x})(y_i-overline{y} )}{sum^m_{i=1}(x_i-overline{x})^2}θ=∑i=1m?(xi?x)2∑i=1m?( xi?x)(yi?y?)?)简单实现import numpy as npimport matplotlib.pyplot as plt# 随机创建训练集,X中有一列全为'1'作为截距项X = 2 * np.random.rand(100, 1)y = 5 + 4 * X + np.random.randn(100, 1)X = np.c_[np.ones((100,1)),X]# 按上面获得的解析解来求得系数矩阵thetatheta = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)# 打印结果print(theta)# 测试部分X_test = np.array([[0],X_test = np.c_[(np.ones((2, 1))), X_test]print(X_test)y_predict = X_test.dot(theta)print(y_predict)plt.plot(X_test[:,-1], y_predict, 'r-')plt.axis([0, 2, 0, 15])plt.show()sklearn实现import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegression X = 2 * np.random.rand(100, 1)y = 5 + 4 * X + np.random.randn(100, 1)X = np.c_[np.ones((100,1)),X]# 新建线性回归模型model = LinearRegression(fit_intercept=False)# 代入训练集数据做训练model.fit(X,y)# 打印训练结果print(model.intercept_,model.coef_)X_test = np.array([[0],X_test = np.c_[(np.ones((2, 1))), X_test]print(X_test)y_predict =model.predict(X_test)print(y_predict)plt.plot(X_test[:,-1], y_predict, 'r-')plt.axis([0, 2, 0, 15])plt.show()使用解析解的公式来求得地模型是最准确的.计算量非常大,这会使得求解耗时极多,因此我们一般用的都是梯度下降法求解.知识储备距离公式机器学习中常见的距离公式 - WingPig - 博客园中心极限定理是讨论随机变量序列部分和分布渐近于正态分布的一类定理。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据点基本落在一条直线附近。

这告诉我们，变量X与Y的关系大致可看作是线性关系，即它们之间的相互关系可以用线性关系来描述。

但是由于并非所有的数据点完全落在一条直线上，因此X与Y的关系并没有确切到可以唯一地由一个X值确定一个Y值的程度。

其它因素，诸如其它微量元素的含量以及测试误差等都会影响Y的测试结果。

如果我们要研究X与Y的关系，可以作线性拟合（2-1-1）我们称（2-1-1）式为回归方程，a与b是待定常数，称为回归系数。

从理论上讲，（2-1-1）式有无穷多组解，回归分析的任务是求出其最佳的线性拟合。

二、最小二乘法原理如果把用回归方程计算得到的i值(i=1,2,…n)称为回归值，那么实际测量值y i与回归值i之间存在着偏差，我们把这种偏差称为残差，记为e i(i=1,2,3,…,n)。

这样，我们就可以用残差平方和来度量测量值与回归直线的接近或偏差程度。

残差平方和定义为:(2-1-2)所谓最小二乘法，就是选择a和b使Q(a,b)最小，即用最小二乘法得到的回归直线是在所有直线中与测量值残差平方和Q最小的一条。

由(2-1-2)式可知Q是关于a,b的二次函数，所以它的最小值总是存在的。

下面讨论的a和b的求法。

三、正规方程组根据微分中求极值的方法可知，Q(a,b)取得最小值应满足(2-1-3)由(2-1-2)式，并考虑上述条件，则(2-1-4)(2-1-4)式称为正规方程组。

解这一方程组可得(2-1-5) 其中(2-1-6)(2-1-7) 式中，L xy称为xy的协方差之和，L xx称为x的平方差之和。

如果改写(2-1-1)式，可得(2-1-8) 或(2-1-9)由此可见，回归直线是通过点的，即通过由所有实验测量值的平均值组成的点。

从力学观点看，即是N个散点的重心位置。

现在我们来建立关于例1的回归关系式。

将表2-1-1的结果代入(2-1-5)式至(2-1-7)式，得出a=1231.65b=-2236.63因此，在例1中灰铸铁初生奥氏体析出温度(y)与氮含量(x)的回归关系式为y=1231.65-2236.63x四、一元线性回归的统计学原理如果X和Y都是相关的随机变量，在确定x的条件下，对应的y值并不确定，而是形成一个分布。

当X 取确定的值时，Y的数学期望值也就确定了，因此Y的数学期望是x的函数，即E(Y|X=x)=f(x) (2-1-10) 这里方程f(x)称为Y对X的回归方程。

如果回归方程是线性的，则E(Y|X=x)=α+βx (2-1-11) 或Y=α+βx+ε(2-1-12) 其中ε―随机误差从样本中我们只能得到关于特征数的估计，并不能精确地求出特征数。

因此只能用f(x)的估计式来取代（2-1-11）式，用参数a和b分别作为α和β的估计量。

那么，这两个估计量是否能够满足要求呢？1. 无偏性把(x,y)的n组观测值作为一个样本，由样本只能得到总体参数α和β的估计值。

可以证明，当满足下列条件：(1)(x i,y i)是n个相互独立的观测值(2)εi是服从分布的随机变量则由最小二乘法得到的a与b分别是总体参数α和β的无偏估计，即E(a)= αE(b)=β由此可推知E()=E(y)即y是回归值在某点的数学期望值。

2. a和b的方差可以证明，当n组观测值(x i,y i)相互独立，并且D(y i)=σ2,时，a和b的方差为(2-1-13)(2-1-14)以上两式表明，a和b的方差均与x i的变动有关，x i分布越宽，则a和b的方差越小。

另外a的方差还与观测点的数量有关，数据越多，a的方差越小。

因此，为提高估计量的准确性，x i的分布应尽量宽，观测点数量应尽量多。

建立多元线性回归方程，实际上是对多元线性模型（2-2-4）进行估计，寻求估计式（2-2-3）的过程。

与一元线性回归分析相同，其基本思想是根据最小二乘原理，求解使全部观测值与回归值的残差平方和达到最小值。

由于残差平方和（2-2-5）是的非负二次式，所以它的最小值一定存在。

根据极值原理，当Q取得极值时，应满足由（2-2-5）式，即满足（2-2-6） (2-2-6）式称为正规方程组。

它可以化为以下形式（2-2-7）如果用A表示上述方程组的系数矩阵可以看出A是对称矩阵。

则有（2-2-8）式中X是多元线性回归模型中数据的结构矩阵，是结构矩阵X的转置矩阵。

(2-2-7)式右端常数项也可用矩阵D来表示即因此(2-2-7)式可写成Ab=D （2-2-10）或（2-2-11）如果A满秩（即A的行列式）那么A的逆矩阵A-1存在，则由(2-10)式和(2-11)式得的最小二乘估计为（2-2-12）也就是多元线性回归方程的回归系数。

为了计算方便往往并不先求，再求b，而是通过解线性方程组(2-2-7)来求b。

(2-2-7)是一个有p+1个未知量的线性方程组，它的第一个方程可化为（2-2-13）式中（2-2-14）将（2-2-13）式代入（2-2-7）式中的其余各方程，得（2-2-15）其中（2-2-16）将方程组（2-2-15）式用矩阵表示，则有Lb=F （2-2-17）其中于是b=L-1F （2-2-18）因此求解多元线性回归方程的系数可由（2-2-16）式先求出L，然后将其代回（2-2-17）式中求解。

求b时，可用克莱姆法则求解，也可通过高斯变换求解。

如果把b直接代入（2-2-18）式，由于要先求出L的逆矩阵，因而相对复杂一些。

例2-2-1 表2-2-1为某地区土壤内含植物可给态磷(y)与土壤内所含无机磷浓度(x1)、土壤内溶于K2CO3溶液并受溴化物水解的有机磷浓度(x2)以及土壤内溶于K2CO3溶液但不溶于溴化物的有机磷(x3)的观察数据。

求y对x1,x2,x3的线性回归方程。

表2-2-1 土壤含磷情况观察数据计算如下：由(2-2-16)式代入(2-2-15)式得（2-2-19）若用克莱姆法则解上述方程组，则其解为（2-2-20）其中计算得b1=1.7848，b2=-0.0834，b3=0.1611回归方程为应用克莱姆法则求解线性方程组计算量偏大，下面介绍更实用的方法——高斯消去法和消去变换。

在上一节所介绍的非线性回归分析，首先要求我们对回归方程的函数模型做出判断。

虽然在一些特定的情况下我们可以比较容易地做到这一点,但是在许多实际问题上常常会令我们不知所措。

根据高等数学知识我们知道，任何曲线可以近似地用多项式表示，所以在这种情况下我们可以用多项式进行逼近，即多项式回归分析。

一、多项式回归方法假设变量y与x的关系为p次多项式，且在x i处对y的随机误差(i=1,2,…,n)服从正态分布N(0,)，则令x i1=x i, x i2=x i2，…，x ip=x i p则上述非线性的多项式模型就转化为多元线性模型，即这样我们就可以用前面介绍的多元线性回归分析的方法来解决上述问题了。

其系数矩阵、结构矩阵、常数项矩阵分别为(2-4-11)(2-4-12)(2-4-13) 回归方程系数的最小二乘估计为(2-4-14)需要说明的是，在多项式回归分析中，检验b j是否显著，实质上就是判断x的j次项x j对y是否有显著影响。

对于多元多项式回归问题，也可以化为多元线性回归问题来解决。

例如，对于(2-4-15) 令x i1=Z i1, x i2=Z i2, x i3=Z i12, x i4=Z i1Z i2, x i5=Z i22则(2-4-15)式转化为转化后就可以按照多元线性回归分析的方法解决了。

下面我们通过一个实例来进一步说明多项式回归分析方法。

一、应用举例例2-4-2 某种合金中的主要成分为元素A和B，试验发现这两种元素之和与合金膨胀系数之间有一定的数量关系，试根据表2-4-3给出的试验数据找出y与x之间的回归关系。

表2-4-3 例2-4-2试验数据首先画出散点图（图2-4-3）。

从散点图可以看出，y与x的关系可以用一个二次多项式来描述：i=1,2,3…,13图2-4-3 例2-4-2的散点图令x i1=x i,x i2=x i2,则现在我们就可以用本篇第二章介绍的方法求出的最小二乘估计。

由表2-4-3给出的数据，求出由（2-2-16）式由此可列出二元线性方程组将这个方程组写成矩阵形式，并通过初等变换求b1,b2和系数矩阵L的逆矩阵L-1:于是b1=-13.3854b2=0.16598b0=2.3323+13.385440-0.165981603.5=271.599因此下面对回归方程作显著性检验：由（2-2-43）式S回=由（2-2-42）式S总=S残=L yy- S回=0.2572将上述结果代入表2-2-2中制成方差分析表如下：表2-4-4 方差分析表实用文档查F检验表，F0。

01（2，10）=7.56, F>F0.01(2 ,10)，说明回归方程是高度显著的。

下面对回归系数作显著性检验由前面的计算结果可知：b1=-13.3854 b2=0.16598c11=51.125 c22=7.991610-3由（2-2-54）式由（2-2-53）式检验结果说明的x一次及二次项对y都有显著影响。

线性回归推导及实例

最小二乘法和线性回归的公式推导

线性回归方程公式推导

贝叶斯线性回归的推导与应用

线 性 回 归 方 程 推 导

各种线性回归模型原理

线性回归方程推导

线性回归方程公式推导过程

高中数学：线性回归方程

线性回归方程b的公式推导

线 性 回 归 方 程 推 导

线性回归方程推导

线性回归方程推导