线性回归方程

合集下载

线性回归原理

线性回归原理
线性回归是一种基本的回归分析方法，用于探索自变量与因变量之间的线性关系。

其原理是通过拟合一条（或多条）直线（或平面）来预测连续型的因变量。

具体而言，线性回归假设自变量和因变量之间存在一个线性关系，表示为一个线性方程：Y = α + βX + ε。

其中，Y代表因
变量，X代表自变量，α表示截距，β表示自变量的系数，ε表示误差项。

线性回归的目标就是找到合适的截距和系数来最小化误差项，从而使得预测值和观测值之间的差异最小。

通过最小二乘法可以求解出最佳的截距和系数。

最小二乘法的基本思想是通过计算预测值与实际观测值之间的差异的平方和，来评估拟合线性关系的质量，并通过调整截距和系数使得差异平方和最小化。

在进行线性回归之前，需要先满足以下假设条件：1. 自变量和因变量之间存在线性关系；2. 自变量和误差项之间不存在相关性；3. 误差项具有常数方差；4. 误差项服从正态分布。

线性回归可以应用于多个领域，例如经济学中的价格预测、市场需求分析，医学领域中的药物剂量选择等。

通过分析得到的截距和系数，可以解释自变量对于因变量的影响程度和方向。

需要注意的是，线性回归模型对数据集中的异常值和离群点较为敏感，当数据集中存在异常值时，需要进行数据处理或者考虑其他回归方法。

此外，线性回归模型也适用于有限的自变量
和因变量之间的关系。

如果存在非线性关系，可以考虑使用多项式回归或其他非线性回归模型进行建模。

高中数学线性回归方程线性回归方程公式详解

高中数学线性回归方程线性回归方程公式详解
线性回归方程是一种用于拟合一组数据的最常见的数学模型，它可以用来预测一个因变量（例如销售额）和一个或多个自变量（例如广告费用）之间的关系。

下面是线性回归方程的公式详解：
假设有n个数据点，每个数据点包含一个因变量y和k个自变量x1,x2,...,xk。

线性回归方程可以表示为：
y = β0 + β1*x1 + β2*x2 + ... + βk*xk + ε
其中，β0, β1, β2, ..., βk是模型的系数，ε是误差项，用来表示实际数据和模型预测之间的差异。

系数β0表示当所有自变量均为0时的截距，而β1, β2, ..., βk 则表示每个自变量对因变量的影响。

当系数为正时，自变量增加时因变量也会增加；而当系数为负时，自变量增加时因变量会减少。

通常，我们使用最小二乘法来估计模型的系数。

最小二乘法就是通过最小化所有数据点与模型预测之间的距离来找到最优的系数。

具体来说，我们可以使用以下公式来计算系数：
β = (X'X)-1 X'y
其中，X是一个n×(k+1)的矩阵，第一列全为1，其余的列为自变量x1,x2,...,xk。

y是一个n×1的向量，每一行对应一个因
变量。

X'表示X的转置，-1表示X的逆矩阵，而β则是一个(k+1)×1的向量，包含所有系数。

当拟合出线性回归方程后，我们可以使用它来预测新的数据点的因变量。

具体来说，我们可以将自变量代入方程中，计算出相应的因变量值。

如果模型的系数是可靠的，我们可以相信这些预测结果是比较准确的。

线性回归方程公式

线性回归方程公式线性回归是一种用于预测连续数值变量的统计方法。

它基于一个线性的数学模型，通过寻找最佳的拟合直线来描述自变量和因变量之间的关系。

线性回归方程公式为：Y=β0+β1X1+β2X2+...+βnXn+ε其中，Y是因变量，X1,X2,...,Xn是自变量，β0,β1,β2,...,βn是回归系数，ε是误差项。

回归系数表示自变量对因变量的影响程度。

线性回归的基本假设是：1.线性关系：自变量和因变量之间存在线性关系，即因变量的变化可以通过自变量的线性组合来解释。

2.残差独立同分布：误差项ε是独立同分布的，即误差项之间不存在相关性。

3.残差服从正态分布：误差项ε服从正态分布，即在每个自变量取值下，因变量的观测值呈正态分布。

4.残差方差齐性：在每个自变量取值下，因变量的观测值的方差是相等的。

线性回归的求解方法是最小二乘法，即通过最小化实际观测值与回归方程预测值之间的平方差来估计回归系数。

具体步骤如下：1.数据收集：收集自变量和因变量的观测数据。

2.模型设定：根据自变量和因变量之间的关系设定一个线性模型。

3.参数估计：通过最小化平方误差来估计回归系数。

4.模型检验：通过检验残差的随机性、正态性和方差齐性等假设来检验模型的合理性。

5.模型拟合：利用估计的回归系数对未知自变量的观测值进行预测。

6.模型评估：通过评估预测结果的准确性来评估模型的性能。

Y=β0+β1X1+β2X2+...+βnXn+ε其中，Y是因变量，X1,X2,...,Xn是自变量，β0,β1,β2,...,βn 是回归系数，ε是误差项。

多元线性回归方程可以更准确地描述自变量和因变量之间的关系。

除了最小二乘法，还有其他方法可以用来求解线性回归模型，如梯度下降法和最大似然估计法等。

这些方法可以在不同的情况下选择使用，以获得更好的回归模型。

线性回归是一种经典的预测分析方法，被广泛应用于各个领域，如经济学、金融学、社会科学、自然科学等。

通过建立合适的线性回归模型，可以帮助我们理解自变量和因变量之间的关系，并用于预测未来的趋势和变化。

线性回归方程公式

线性回归方程公式线性回归是一种常见的统计学方法，用于建立一个预测目标变量与一个或多个自变量之间的线性关系模型。

它是一种广泛应用的回归方法，适用于各种领域，如经济学、金融学、社会学、生物学和工程学等。

线性回归模型可以表示为以下形式：Y = b0 + b1*X1 + b2*X2+ ... + bp*Xp，其中Y是目标变量，X1、X2、...、Xp是自变量，b0、b1、b2、...、bp是回归系数。

这个方程描述了目标变量Y与自变量X之间的线性关系，通过调整回归系数的值可以拟合数据并预测未知数据的值。

线性回归模型的目标是找到最佳拟合直线，使得预测值与实际观测值之间的误差最小化。

常用的误差衡量指标是残差平方和（RSS），也可以使用其他指标如平均绝对误差（MAE）和均方根误差（RMSE）。

线性回归模型的建立过程包括两个主要步骤：参数估计和模型评估。

参数估计是通过最小化误差来确定回归系数的值。

最常用的方法是最小二乘法，通过最小化残差平方和来估计回归系数。

模型评估是用来评估模型的拟合优度和预测能力，常用的指标包括决定系数（R^2）、调整决定系数（Adjusted R^2）和F统计量。

线性回归模型的假设包括线性关系、误差项的独立性、误差项的方差恒定以及误差项服从正态分布。

如果这些假设不成立，可能会导致模型的拟合效果不佳或不可靠的预测结果。

对于线性回归模型的建立，首先需要收集相关的数据，然后进行数据的处理和变量选择。

数据处理包括缺失值处理、异常值处理和变量转换等。

变量选择是通过统计方法或经验判断来选择对目标变量有影响的自变量。

常见的变量选择方法包括逐步回归、岭回归和lasso回归等。

在建立模型之后，需要对模型进行评估和验证。

评估模型的拟合优度是通过决定系数和F统计量来实现的，较高的决定系数和较小的F统计量表明模型的拟合效果较好。

验证模型的预测能力可以使用交叉验证等方法。

线性回归模型还有一些扩展形式，如多项式回归、加权回归和广义线性回归等。

线性回归方程推导

线性回归——正规方程推导过程线性回归——正规方程推导过程我们知道线性回归中除了利用梯度下降算法来求最优解之外，还可以通过正规方程的形式来求解。

首先看到我们的线性回归模型：f(xi)=wTxif(x_i)=w^Tx_if(xi?)=wTxi?其中w=(w0w1.wn)w=begin{pmatrix}w_0w_1.w_nend{pmatrix}w=?w0?w1?. wn?，xi=(x0x1.xn)x_i=begin{pmatrix}x_0x_1.x_nend{pmatrix}xi?=?x0 x1.xn，m表示样本数，n是特征数。

然后我们的代价函数(这里使用均方误差)：J(w)=∑i=1m(f(xi)?yi)2J(w)=sum_{i=1}^m(f(x_i)-y_i)^2J(w) =i=1∑m?(f(xi?)?yi?)2接着把我的代价函数写成向量的形式：J(w)=(Xw?y)T(Xw?y)J(w)=(Xw-y)^T(Xw-y)J(w)=(Xw?y)T(Xw?y) 其中X=(1x11x12?x1n1x21x22?x2n?1xm1xm2?xmn)X=begin{pmatrix}1 x_{11} x_{12} cdots x_{1n}1 x_{21} x_{22} cdots x_{2n}vdots vdots vdots ddots vdots1 x_{m1} x_{m2} cdots x_{mn}end{pmatrix}X=?11?1?x11?x21?xm1?x12?x22?xm2?x1n?x2n?xmn?最后我们对w进行求导，等于0，即求出最优解。

在求导之前，先补充一下线性代数中矩阵的知识：1.左分配率：A(B+C)=AB+ACA(B+C) = AB+ACA(B+C)=AB+AC；右分配率：(B+C)A=BA+CA(B+C)A = BA + CA(B+C)A=BA+CA2.转置和逆：(AT)?1=(A?1)T(A^T)^{-1}=(A^{-1})^T(AT)?1=(A?1)T，(AT)T=A(A^T)^T=A(AT)T=A3.矩阵转置的运算规律：(A+B)T=AT+BT(A+B)^T=A^T+B^T(A+B)T=AT+BT；(AB)T=BTAT(AB)^T=B^TA^T(AB)T=BTAT然后介绍一下常用的矩阵求导公式：1.δXTAXδX=(A+AT)Xfrac{delta X^TAX}{delta X}=(A+A^T)XδXδXTAX?=(A+AT)X2.δAXδX=ATfrac{delta AX}{delta X}=A^TδXδAX?=AT3.δXTAδX=Afrac{delta X^TA}{delta X}=AδXδXTA?=A然后我们来看一下求导的过程：1.展开原函数，利用上面的定理J(w)=(Xw?y)T(Xw?y)=((Xw)T?yT)(Xw?y)=wTXTXw?wTXTy?yTXw+yT yJ(w)=(Xw-y)^T(Xw-y)=((Xw)^T-y^T)(Xw-y)=w^TX^TXw-w^TX^Ty-y^TXw+y^TyJ(w)=(Xw?y)T(Xw?y)=((Xw)T?yT)(Xw?y)=wTXTXw?wTXTy?yT Xw+yTy2.求导，化简得，δJ(w)δw=(XTX+(XTX)T)w?XTy?(yTX)T=0?2XTXw?2XTy=0?XTXw=X Ty?w=(XXT)?1XTyfrac{delta J(w)}{delta w}=(X^TX+(X^TX)^T)w-X^Ty-(y^TX)^T=0implies2X^TXw-2X^Ty=0implies X^TXw=X^Tyimplies w=(XX^T)^{-1}X^TyδwδJ(w)?=(XTX+(XTX)T)w?XTy?(yTX)T=0?2XTX w?2XTy=0?XTXw=XTy?w=(XXT)?1XTy最后补充一下关于矩阵求导的一些知识，不懂可以查阅：矩阵求导、几种重要的矩阵及常用的矩阵求导公式这次接着一元线性回归继续介绍多元线性回归，同样还是参靠周志华老师的《机器学习》，把其中我一开始学习时花了较大精力弄通的推导环节详细叙述一下。

线性回归方程公式_数学公式

线性回归方程公式_数学公式线性回归方程公式线性回归方程公式：b=(x1y1+x2y2+...xnyn-nXY)/(x1+x2+...xn-nX)。

线性回归方程公式求法：第一：用所给样本求出两个相关变量的(算术)平均值：x_=(x1+x2+x3+...+xn)/ny_=(y1+y2+y3+...+yn)/n第二：分别计算分子和分母：(两个公式任选其一)分子=(x1y1+x2y2+x3y3+...+xnyn)-nx_Y_分母=(x1^2+x2^2+x3^2+...+xn^2)-n__x_^2第三：计算b：b=分子/分母用最小二乘法估计参数b，设服从正态分布，分别求对a、b的偏导数并令它们等于零。

其中，且为观测值的样本方差.线性方程称为关于的线性回归方程，称为回归系数，对应的直线称为回归直线.顺便指出，将来还需用到，其中为观测值的样本方差。

先求x，y的平均值X，Y再用公式代入求解:b=(x1y1+x2y2+...xnyn-nXY)/(x1+x2+...xn-nX)后把x，y的平均数X，Y代入a=Y-bX求出a并代入总的公式y=bx+a得到线性回归方程(X为xi的平均数，Y为yi的平均数)线性回归方程的应用线性回归方程是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。

这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合，而且产生的估计的统计特性也更容易确定。

线性回归有很多实际用途。

分为以下两大类：如果目标是预测或者映射，线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。

当完成这样一个模型以后，对于一个新增的X值，在没有给定与它相配对的y的情况下，可以用这个拟合过的模型预测出一个y值。

给定一个变量y和一些变量X1,...,Xp，这些变量有可能与y相关，线性回归分析可以用来量化y与Xj之间相关性的强度，评估出与y不相关的Xj，并识别出哪些Xj的子集包含了关于y的冗余信息。

线性回归算法原理

线性回归算法原理
线性回归是一种预测模型，用于建立自变量（输入）与因变量（输出）之间的线性关系。

其原理基于最小二乘法，通过拟合一条最优直线来描述数据点的分布趋势。

线性回归假设自变量与因变量之间存在线性关系，可以表示为
y = β0 + β1x + ε，其中 y 是因变量，x 是自变量，β0 和β1 是
回归系数，ε 是随机误差项。

回归系数的求解过程是通过最小化残差平方和来实现的，即找到使得∑(yi - β0 - β1xi)² 最小化的β0 和β1。

求解过程主要利用了最小二乘法，该方法通过对误差的平方和进行求导，使得导数等于零得到回归系数的估计值。

对于简单线性回归来说，只有一个自变量，回归方程可以表示为y = β0 + β1x + ε。

而对于多元线性回归，有多个自变量，回归方程可以表示为y = β0 + β1x1 + β2x2 + ... + βnxn + ε。

线性回归模型在实际应用中具有广泛的适用性，特别是在预测和预测分析领域。

它可以用来解决许多实际问题，如房价预测、销售量预测、趋势分析等。

线性回归方程推导

sklearn - 线性回归(正规方程与梯度下降)一: 线性回归方程线性回归（英语：linear regression）是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。

这种函数是一个或多个称为回归系数的模型参数的线性组合。

只有一个自变量的情况称为简单回归，大于一个自变量情况的叫做多元回归在线性回归中，数据使用线性预测函数来建模，并且未知的模型参数也是通过数据来估计。

这些模型被叫做线性模型。

最常用的线性回归建模是给定X值的y的条件均值是X的仿射函数。

不太一般的情况，线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。

像所有形式的回归分析一样，线性回归也把焦点放在给定X值的y的条件概率分布，而不是X 和y的联合概率分布（多元分析领域）。

线性回归有很多实际用途。

分为以下两大类：如果目标是预测或者映射，线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。

当完成这样一个模型以后，对于一个新增的X值，在没有给定与它相配对的y的情况下，可以用这个拟合过的模型预测出一个y给定一个变量y和一些变量X1X1.,XpXp{displaystyleX_{1}}X_1.,{displaystyle X_{p}}X_pX1?X1?.,Xp?Xp?，这些变量有可能与y相关，线性回归分析可以用来量化y与Xj之间相关性的强度，评估出与y不相关的，XjXj{displaystyle X_{j}}X_jXj?Xj?并识别出哪些XjXj{displaystyle X_{j}}X_jXj?Xj?的子集包含了关于y的冗余信息。

使用sklearn线性回归模型(jupyter)这里我们以波士顿的房价数据来进行使用分析(一): 导入sklearnimport numpy as np# 线性回归,拟合方程,求解系数, 一次幂# 线性方程:直来直去,不拐弯from sklearn.linear_model import LinearRegression# 导入数据集from sklearn import datasets# 导入数据分离的方法(获取数据后,一部分数据用来让回归模型学习,另一部分用来预测)from sklearn.model_selection import train_test_split(二): 获取波士顿房价数据# 获取的数据是numpy,ndarray类型data = datasets.load_boston()# 该数据内有完整的影响房价的因素和完整的房价信息,本次实验就是将数据分为两部分, 一部分用来训练模型,另一部分用来预测,最后将预测出来的数据和已有的完整信息进行对比,判断该模型是否适用于这组房价数据data # 查看data的数据结构data.feature_names # 查看影响房价的属性名# x是属性,特征,未知数X = data['data']X.shape # 运行结果是(506, 13), 506表示样本是506个, 每个样本采集了13个属性特征;13个属性,需要构建构建了13元一次方程# y是房价的估值y = data['target']# X, y = datasets.load_boston(True) 获取到X, y的值和以上的一样(三): 使用模型进行预测X_train, X_test, y_train, y_test = train_test_split(X, y) # 将数据进行分离(默认是3:1); train_test_split(X, y)函数会随机打乱顺序display(X_train.shape, X_test.shape) # (379, 13) ; (127, 13) # 声明算法linear = LinearRegression()# 训练模型linear.fit(X_train, y_train) # X_train, y_train是之前分离出来用来训练模型的数据y_ = linear.predict(X_test).round(1) # X_test是影响房价的因素,该预测模型能根据影响房价的因素预测剩余部分的房价# 预估数据和实际数据比较print(y_)print(y_test)经过估计数据和实际数据对比,说明算法模型适用于数据(四): 自建方程预测数据与使用线性模型得到的数据对比假设波士顿的房价数据符合线性回归的特性,则我们可以通过构建线性方程来预测波士顿剩余部分的房价信息根据一次线性回归方程: f(X)=Xw+bf(X) = Xw+bf(X)=Xw+b 可推导得出: f(X)=w1x1+W2x2+.+w13x13+b f(X) = w_1x_1+W_2x_2+.+w_{13}x_{13} +bf(X)=w1?x1?+W2?x2?+.+w13?x13?+b (有13个影响房价的因素)代码如下:# 通过训练模型,可从模型中得出系数ww_ = linear.coef_# 通过训练模型,可从模型中得出截距bb_ = linear.intercept_# 自建方程def fun(w_, b_, X):return np.dot(X, w_)+b_# 调用方程得到预估的房价信息fun(w_, b_, X_test).round(1) # round(1)保留一位小数array([31.3, 13.4, 28.6, 20.5, 20.4, 19.4, 32.2, 24. , 25.8, 29.5,24.5,25.2, 31.9, 8.2, 20.9, 29.3, 22.3, 35.2, 16.4, 18.5, 30.8, 41.1,16.2, 13.7, 17.7, 23.8, 7.8, 12. , 20.5, 15.3, 29.3, 26.8, 31.8,26. , 30.4, 39.2, 25.3, 40.7, 11.6, 27.3, 16.7, 18.8, 19.5, 19.9,20.7, 22.8, 17.4, 21.6, 23.3, 30. , 25.2, 23.7, 34.2, 18.2, 33.5,16. , 28.3, 14.1, 24.2, 16.2, 16.7, 23.5, 16. , 21.4, 21.8, 28.2,25.7, 31.2, 18.8, 26.4, 28.3, 21.9, 27.5, 27.1, 27.1, 15. , 26. ,26.3, 13.2, 13.3, 26.1, 20.5, 16.8, 24.3, 36.6, 21.4, 8.3, 27.8,3.6, 19.2, 27.5, 33.6, 28.4, 34.3, 28.2, 13.3, 18. , 23.5, 30.4,32.9, 23.7, 30.5, 19.8, 19.5, 18.7, 30.9, 36.3, 8. , 18.2, 13.9,15. , 26.4, 24. , 30.2, 20. , 5.6, 21.4, 22.9, 17.6, 32.8, 22.1,32.6, 20.9, 19.3, 23.1, 21. , 21.5])# 使用sklesrn中的线性模型得到的预估房价信息linear.predict(X_test).round(1)array([31.3, 13.4, 28.6, 20.5, 20.4, 19.4, 32.2, 24. , 25.8, 29.5,24.5,25.2, 31.9, 8.2, 20.9, 29.3, 22.3, 35.2, 16.4, 18.5, 30.8, 41.1,16.2, 13.7, 17.7, 23.8, 7.8, 12. , 20.5, 15.3, 29.3, 26.8, 31.8,26. , 30.4, 39.2, 25.3, 40.7, 11.6, 27.3, 16.7, 18.8, 19.5, 19.9,20.7, 22.8, 17.4, 21.6, 23.3, 30. , 25.2, 23.7, 34.2, 18.2, 33.5,16. , 28.3, 14.1, 24.2, 16.2, 16.7, 23.5, 16. , 21.4, 21.8, 28.2,25.7, 31.2, 18.8, 26.4, 28.3, 21.9, 27.5, 27.1, 27.1, 15. , 26. ,26.3, 13.2, 13.3, 26.1, 20.5, 16.8, 24.3, 36.6, 21.4, 8.3, 27.8,3.6, 19.2, 27.5, 33.6, 28.4, 34.3, 28.2, 13.3, 18. , 23.5, 30.4,32.9, 23.7, 30.5, 19.8, 19.5, 18.7, 30.9, 36.3, 8. , 18.2, 13.9,15. , 26.4, 24. , 30.2, 20. , 5.6, 21.4, 22.9, 17.6, 32.8, 22.1,32.6, 20.9, 19.3, 23.1, 21. , 21.5])通过自建模型获取预估数据与使用模型获取预估数据进行比较,两组数据完全一致;(五): 使用线性回归,求解斜率和截距根据最小二乘法: min?w∣∣Xw?y∣∣22min_{w}||Xw-y||_2^2wmin?∣∣Xw?y∣∣22? 推到得出公式: w=(XTX)?1XTyw = (X^TX)^{-1}X^Tyw=(XTX)?1XTy 以上公式只能求出w,我们可以先求出w再计算出b;但此处我们有更简单的方法:根据线性回归方程f(x)=w1x1+w2x2+b f(x) = w_1x_1+w_2x_2+bf(x)=w1?x1?+w2?x2?+b 我们可以将方程中的b看成是w3x30w_3x_3^0w3?x30?,所以可得: f(x)=w1x11+w2x21+w3x30f(x) = w_1x_1^1+w_2x_2^1+w_3x_3^0f(x)=w1?x11?+w2?x21?+w3?x30?代码如下:import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn import datasetsX, y = datasets.load_boston(True)linear = LinearRegression()linear.fit(X,y)w_ = linear.coef_b_ = linear.intercept_# 向X中插入一列全是1的数据(任何数的0次方都是1)X = np.concatenate([X, np.ones(shape = (506, 1))], axis=1) # 根据最小二乘法的推导公式:w和b的值为(最后一个值是b)w = ((np.linalg.inv(X.T.dot(X))).dot(X.T)).dot(y)# 以上w的写法过于装逼,所以分解为:# A = X.T.dot(X) 求X和转置后的X的内积(公式中的XTX)# B = np.linalg.inv(A) 求A的逆矩阵(公式中的-1次方)# C = B.dot(X.T) 求以上矩阵和X的转置矩阵的内积(公式中的XT) # w = C.dot(y) 与y求内积,得出w和b运行结果:array([-1.08011358e-01, 4.64204584e-02, 2.05586264e-02, 2.68673382e+00,-1.77666112e+01, 3.80986521e+00, 6.92224640e-04, -1.47556685e+00,3.06049479e-01, -1.23345939e-02, -9.52747232e-01,9.31168327e-03,-5.24758378e-01, 3.64594884e+01])print(b_)运行结果:36.45948838509001扩展一: 最小二乘法和向量范数min?w∣∣Xw?y∣∣22min_{w}||Xw-y||_2^2wmi n?∣∣Xw?y∣∣22?右上角的2是平方右下角的2是向量2范数竖线内的表达式是向量根据最小二乘法的公式, 推导得出w=(XTX)?1XTyw = (X^TX)^{-1}X^Tyw=(XTX)?1XTy向量的1-范数(表示各个元素的绝对值的和)∣∣X∣∣1=∑i=1n∣xi∣||X||_1 = sumlimits_{i=1}^n |x_i|∣∣X∣∣1?=i=1∑n?∣xi?∣向量的2-范数(表示每个元素的平方和再开平方)∣∣X∣∣2=∑i=1nxi2||X||_2 = sqrt{suml imits_{i=1}^n x_i^2}∣∣X∣∣2?=i=1∑n?xi2?向量的无穷范数(所有向量元素绝对值中的最大值)∣∣X∣∣∞=max?1≥i≤n∣Xi∣||X||_{infty} = maxlimits_{1 geq i leq n}|X_i|∣∣X∣∣∞?=1≥i≤nmax?∣Xi?∣扩展二: 导数, 偏导数对函数f(x)=x2+3x+8f(x) = x^2+3x+8f(x)=x2+3x+8 求导得: f(x)′=2x+3f(x)' = 2x+3f(x)′=2x+3求导规则:参数求导为0参数乘变量求导为常数变量的次方求导: xyx^yxy求导为yxy?1yx^{y-1}yxy?1复合函数求导:$$(x^2-x)^2$$求导: 先将括号看成一个整体求导, 结果再乘以括号内的求导结果$$2(x^2-x)(2x-1)$$有多个变量得函数求导:对函数: f(x,y)=x2+xy+y2f(x, y) = x^2+xy+y^2f(x,y)=x2+xy+y2 求导:求导规则: 多变量函数只能针对某一个变量求导,此时将其他变量看成常数将x看成常数a: fa(y)=a2+ay+y2f_a(y) = a^2+ay+y^2fa?(y)=a2+ay+y2求导得:fa′(y)=a+2yf_a'(y) = a+2yfa′?(y)=a+2y故求导得: ?f?y(x,y)=x+2yfrac{partial f}{partial y}(x,y)=x+2y?y?f?(x,y)=x+2y实现线性回归的两种方式:正规方程梯度下降二: 正规方程(一): 损失函数最小二乘法:min?w∣∣Xw?y∣∣22minlimits_{w}||Xw-y||_2^2wmin?∣∣Xw?y∣∣22?当X和y都是常数时,按照向量2范数将上面的最小二乘法解开:f(w)=(Xw?y)2f(w)=(Xw-y)^2f(w)=(Xw?y)2将X,y替换成常数a,bf(w)=(aw?b)2f(w)=(aw-b)^2f(w)=(aw?b)2f(w)=a2w2?2abw+b2f(w)=a^2w^2 - 2abw + b^2f(w)=a2w2?2abw+b2 由于最小二乘法方程的函数值都是大雨或等于0的,所以此时得到一个开口向上的抛物线(一元二次方程)此时的f(w)f(w)f(w)就是损失函数,在此时求该函数的导数(抛物线函数顶点的导数为0)就能得到该函数的最小值,也就是最小损失f′(w)=2a2w?2ab=0f'(w)=2a^2w-2ab=0f′(w)=2a2w?2ab=0(二): 矩阵常用求导公式X的转置矩阵对X矩阵求导, 求解出来是单位矩阵dXTdX=Ifrac{dX^T}{dX} = IdXdXT?=IdXdXT=Ifrac{dX}{dX^T} = IdXTdX?=IX的转置矩阵和一个常数矩阵相乘再对X矩阵求导, 求解出来就是改常数矩阵dXTAdX=Afrac{dX^TA}{dX} = AdXdXTA?=AdAXdX=ATfrac{dAX}{dX} = A^TdXdAX?=ATdXAdX=ATfrac{dXA}{dX} = A^TdXdXA?=ATdAXdXT=Afrac{dAX}{dX^T} = AdXTdAX?=A(三): 正规方程矩阵推导过程此时X,w,y都是矩阵1: 公式化简1: 最小二乘法:f(w)=∣∣Xw?y∣∣22f(w) = ||Xw-y||_2^2f(w)=∣∣Xw?y∣∣22?2: 向量2范数:∣∣X∣∣2=∑i=1nxi2||X||_2 = sqrt{sumlimits_{i = 1}^nx_i^2}∣∣X∣∣2?=i=1∑n?xi2?3: 将向量2范数的公式带入到最小二乘法中得:f(w)=((Xw?y)2)2f(w)=(sqrt{(Xw-y)^2})^2f(w)=((Xw?y)2?)2f(w)=(Xw?y)2f(w)=(Xw-y)^2f(w)=(Xw?y)2由于X, w, y都是矩阵, 运算后还是矩阵; 矩阵得乘法是一个矩阵得行和另一个矩阵得列相乘; 所以矩阵的平方就是该矩阵乘以他本身的转置矩阵f(w)=(Xw?y)T(Xw?y)f(w)=(Xw-y)^T(Xw-y)f(w)=(Xw?y)T(Xw?y)注意: 整体转置变成每个元素都转置时,若是有乘法, 则相乘的两个矩阵要交换位置; 如下所示!f(w)=(wTXT?yT)(Xw?y)f(w)=(w^TX^T-y^T)(Xw-y)f(w)=(wTXT?yT)(Xw y)f(w)=wTXTXw?wTXTy?yTXw+yTyf(w)=w^TX^TXw-w^TX^Ty-y^TXw+y^Tyf( w)=wTXTXw?wTXTy?yTXw+yTy注意: 若想交换两个相乘的矩阵在算式中的位置,则交换之后双方都需要转置一次; 如下所示!f(w)=wTXTXw?(XTy)T(wT)T?yTXw+yTyf(w)=w^TX^TXw-(X^Ty)^T(w^T)^ T-y^TXw+y^Tyf(w)=wTXTXw?(XTy)T(wT)T?yTXw+yTyf(w)=wTXTXw?yTXw?yTXw+yTyf(w)=w^TX^TXw-y^TXw-y^TXw+y^Tyf(w)= wTXTXw?yTXw?yTXw+yTyf(w)=wTXTXw?2yTXw+yTyf(w) = w^TX^TXw - 2y^TXw + y^Ty f(w)=wTXTXw?2yTXw+yTyf(w)=wTXTXw?2yTXw+yTyf(w) = w^TX^TXw - 2y^TXw + y^Ty f(w)=wTXTXw?2yTXw+yTy这里 yTyy^TyyTy 是常数求导后为02yTXw2y^TXw2yTXw 求导:d(2yTX)wdw=(2yTX)T=2XT(yT)T=2XTyfrac{d(2y^TX)w}{dw}=(2y^TX)^ T=2X^T(y^T)^T=2X^Tydwd(2yTX)w?=(2yTX)T=2XT(yT)T=2XTy wTXTXww^TX^TXwwTXTXw求导:dwTXTXwdw=d(wTXTX)wdw+dwT(XTXw)dw=(wTXTX)T+XTXw=XT(XT)T(wT)T +XTXw=2XTXwfrac{dw^TX^TXw}{dw}=frac{d(w^TX^TX)w}{dw}+frac{dw^T(X^TXw)}{dw}=(w^TX^TX)^T+X^TXw=X^T(X^T)^T(w^T)^T+X^TXw=2X^TXwdwd wTXTXw?=dwd(wTXTX)w?+dwdwT(XTXw)?=(wTXTX)T+XTXw=XT(XT)T(wT)T+XT Xw=2XTXwf′(w)=2XTXw?2XTyf'(w) = 2X^TXw - 2X^Tyf′(w)=2XTXw?2XTy令f′(w)=0f'(w)=0f′(w)=0,则:2XTXw?2XTy=02X^TXw - 2X^Ty = 02XTXw?2XTy=0XTXw=XTyX^TXw=X^TyXTXw=XTy矩阵运算没有除法,可以用逆矩阵实现除法的效果等式两边同时乘以XTXX^TXXTX的逆矩阵(XTX)?1(X^TX)^{-1}(XTX)?1 (XTX)?1(XTX)w=(XTX)?1XTy(X^TX)^{-1}(X^TX)w=(X^TX)^{-1}X^Ty(X TX)?1(XTX)w=(XTX)?1XTyIw=(XTX)?1XTyIw=(X^TX)^{-1}X^TyIw=(XTX)?1XTy I是单位矩阵得到正规方程:w=(XTX)?1XTyw=(X^TX)^{-1}X^Tyw=(XTX)?1XTy(四): 数据挖掘实例(预测2020年淘宝双十一交易额)import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionX = np.arange(2009, 2020) # 年份X = X -2008 # 年份数值太大,差别不明显y = np.array([0.5, 9.36, 52, 191, 350, 571, 912, 1207, 1682, 2135, 2684]) # 09年到19年的交易额假设X和y之间是一元三次的关系(按照前几年的数据走势提出的假设)f(x)=w1x+w2x2+w3x3+bf(x)=w_1x+w_2x^2+w_3x^3+bf(x)=w1?x+w2?x2 +w3?x3+bf(x)=w0x0+w1x1+w2x2+w3x3f(x)=w_0x^0+w_1x^1+w_2x^2+w_3x^3f(x) =w0?x0+w1?x1+w2?x2+w3?x3# X_oo = np.concatenate([a,a]) # 横着级联X_train = np.c_[X**0, X**1, X**2, X**3] # 竖着级联array([[ 1, 1, 1, 1],[ 1, 2, 4, 8],[ 1, 3, 9, 27],[ 1, 4, 16, 64],[ 1, 5, 25, 125],[ 1, 6, 36, 216],[ 1, 7, 49, 343],[ 1, 8, 64, 512],[ 1, 9, 81, 729],[ 1, 10, 100, 1000],[ 1, 11, 121, 1331]], dtype=int32)linear = LinearRegression(fit_intercept=False) # 声明算法; fit_intercept=False将截距设置为0, w0就是截距linear.fit(X_train, y) # 训练w_ = linear.coef_print(linear.coef_.round(2)) # 获取系数print(linear.intercept_) # 获取截距[ 58.77 -84.06 27.95 0.13]可以得到方程:f(x)=58.77?84.06x+27.95x2+0.13x3f(x)=58.77-84.06x+27.95x^2+0 .13x^3f(x)=58.77?84.06x+27.95x2+0.13x3X_test = np.linspace(0,12,126) # 线性分割(将0,12之间分成126分)等差数列包含1和12X_test = np.c_[X_test**0, X_test**1, X_test**2, X_test**3] # 和训练数据保持一致y_ = linear.predict(X_test) # 使用模型预测plt.plot(np.linspace(0,12,126), y_, color='g') # 绘制预测方程曲线plt.scatter(np.arange(1,12), y, color='red') # 绘制每年的真实销量# 定义函数fun = lambda x : w_[0] + w_[1]*x + w_[2]*x**2 + w_[-1]*x**3 '''3294.2775757576132'''三: 梯度下降梯度下降法的基本思想可以类比为一个下山的过程。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

环球雅思学科教师辅导讲义讲义编号：组长签字：签字日期：
解析因为x －＝174＋176＋176＋176＋178
5＝176，
y －
＝175＋175＋176＋177＋1775
＝176，
又y 对x 的线性回归方程表示的直线恒过点(x －，y －
)，所以将(176,176)代入A 、B 、C 、D 中检验知选C. 答案 C
3．(2011·陕西)设(x 1，y 1)，(x 2，y 2)，…，(x n ，y n )是变量x 和y 的n 个
样本点，直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图)，以下结论中正确的是( )．
A ．x 和y 的相关系数为直线l 的斜率
B ．x 和y 的相关系数在0到1之间
C ．当n 为偶数时，分布在l 两侧的样本点的个数一定相同
D ．直线l 过点(x －，y －
)
解析因为相关系数是表示两个变量是否具有线性相关关系的一个值，它的绝对值越接近1，两个变量的线性相关程度越强，所以A 、B 错误．C 中n 为偶数时，分布在l 两侧的样本点的个数可以不相同，所以C 错误．根据回归直线方程一定经过样本中心点可知D 正确，所以选D. 答案 D
4．(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系，下表记录了小李某月1号到5号每天打篮球时间x (单位：小时)与当天投篮命中率y 之间的关系：
时间x 1 2 3 4 5 命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________；用线性回归分析的方法，预测小李该月6号打6小时篮球的投篮命中率为________．
解析小李这5天的平均投篮命中率 y －
＝
0.4＋0.5＋0.6＋0.6＋0.4
5
＝0.5，
可求得小李这5天的平均打篮球时间x －＝3.根据表中数据可求得b ^＝0.01，a ^
＝ 0.47，故回归直线方程为y ^
＝0.47＋0.01x ，将x ＝6代入得6号打6小时篮球的
投篮命中率约为0.53.
答案0.5 0.53
5．(2011·辽宁)调查了某地若干户家庭的年收入x(单位：万元)和年饮食支出y(单位：万元)，调查显示年收入x与年饮食支出y具有线性相关关系，并由调查数据得到y对x的回归直线方程：y^＝0.254x＋0.321.由回归直线方程可知，家庭年收入每增加1万元，年饮食支出平均增加________万元．
解析由题意知[0.254(x＋1)＋0.321]－(0.254x＋0.321)＝0.254.
答案0.254
6．(2011·安徽)某地最近十年粮食需求量逐年上升，下表是部分统计数据：
年份20022004200620082010
需求量(万吨)236246257276286
(1)利用所给数据求年需求量与年份之间的回归直线方程y^＝b^x＋a^；
(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量．
解(1)由所给数据看出，年需求量与年份之间是近似直线上升的，下面求回归直线方程．为此对数据预处理如下：
年份－2006－4－202 4
需求量－257－21－1101929 对预处理后的数据，容易算得x－＝0，y－＝3.2.
b^＝－4×－21＋－2×－11＋2×19＋4×29－5×0×3.2
－42＋－22＋22＋42－5×02
＝260
40
＝6.5，a^＝y－－b x－＝3.
由上述计算结果，知所求回归直线方程为
y^－257＝b^(x－2 006)＋a^＝6.5(x－2 006)＋3.2，
即y^＝6.5(x－2 006)＋260.2. ①
(2)利用直线方程①，可预测2012年的粮食需求量为
6．5×(2012－2006)＋260.2＝6.5×6＋260.2＝299.2(万吨)．
课堂练习
1．实验测得四组(x，y)的值为(1,2)，(2,3)，(3,4)，(4,5)，则y与x之间的回归直线方程为( )
(参考公式：b＝∑
i＝1
n
x i y i－n x y
∑
i＝1
n
x2i－n x2
，a＝y－b x)
答案46
解析由所提供数据可计算得出x＝10，y＝38，又b≈－2代入公式a＝y－b x可得a＝58，即线性回归方程y^＝－2x＋58，将x＝6代入可得．
9．对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究，调查他们是否又发作过心脏病，调查结果如下表所示：
又发作过心脏病未发作过
心脏病
合计
心脏搭桥手术39157196
血管清障手术29167196 合计68324392 试根据上述数据计算K2＝________.
比较这两种手术对病人又发作心脏病的影响有没有差别．________.
答案392×39×167－29×1572
68×324×196×196
≈1.78
不能作出这两种手术对病人又发作心脏病的影响有差别的结论
解析提出假设H0：两种手术对病人又发作心脏病的影响没有差别．
根据列联表中的数据，可以求得K2＝392×39×167－29×1572
68×324×196×196
≈1.78.
当H0成立时K2≈1.78，而K2＜2.072的概率为0.85.所以，不能否定假设H0.也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论．
三、解答题
10．某农科所对冬季昼夜温差大小与某反季大豆新品种发芽多少之间的关系进行分析研究，他们分别记录了2010年12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数，得到如下表：
日期12月1日12月2日12月3日12月4日12月5日
温差x(℃)101113128
发芽数y(颗)2325302616 该农科所确定的研究方案是：先从这五组数据中选取2组，用剩下的3组数据求线性回归方程，再对被选取的2组数据进行检验．
(1)求选取的2组数据恰好是不相邻的2天数据的概率；
(2)若选取的是12月1日与12月5日的两组数据，请根据12月2日至12月4日的数据，求出y 关于x的线性回归方程y^＝bx＋a；
下表1和表2分别是注射药物A和B后的试验结果．(疱疹面积单位：mm2)
表1：注射药物A后皮肤疱疹面积的频数分布表
疱疹面积[60,65)[65,70)[70,75)[75,80)
频数30402010
表2：注射药物B后皮肤疱疹面积的频数分布表
疱疹面积[60,65)[65,70)[70,75)[75,80)[80,85) 频数1025203015 (ⅰ)完成下面频率分布直方图，并比较注射两种药物后疱疹面积的中位数大小；
(ⅱ)完成下面2×2列联表，并回答能否有99.9% 的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”．
表3：
疱疹面积小
于70 mm2疱疹面积不小
于70 mm2合计
注射药物A a＝b＝
注射药物B c＝d＝
合计n＝
附：K2＝
n ad－bc2
a＋b c＋d a＋c b＋d
解析(ⅰ)
可以看出注射药物A后的疱疹面积的中位数在65至70之间，而注射药物B后的疱疹面积的中位数在70至75之间，，所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数．(ⅱ)表3：
疱疹面积小
于70 mm2疱疹面积不小
于70 mm2合计
注射药物A a＝70b＝30100
注射药物B c＝35d＝65100
合计10595n＝200
K2＝200×70×65－35×302
100×100×105×95
≈24.56.
由于K2＞10.828，所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”．
X。

线性回归方程

线性回归原理

高中数学线性回归方程线性回归方程公式详解

线性回归方程公式

线性回归方程公式

线 性 回 归 方 程 推 导

线性回归方程公式_数学公式

线性回归算法原理

线 性 回 归 方 程 推 导

线性回归方程推导

线性回归方程推导