多元的线性回归分析报告材料地基本思想和方法

合集下载

第十一章多元线形回归分析报告报告材料

第十一章多元线形回归分析报告报告材料

第十一章多元相关与回归分析第一节多元线性回归模型多元线性回归即多个自变量对一个因变量的线性回归。

一、多元线性回归模型概念以两个自变量的二元回归为例,如X1、X2和Y的关系存在关系式:E(Y) =α+β1X1+β2X2,则Y与X1和X2之间存在多元线性相关关系,这一方程即多元线性回归模型。

多元线性回归是多维空间中的超平面,如二元回归是三维空间中的一个平面。

对于任意的(X1, X2),Y的期望值就是该平面上正对(X1, X2)的那个点的Y轴值,其与实际观测点之间存在随机误差,实际观测点Y i=α+β1X1+β2 X2+εi。

二、模型的建立总体未知情况下,以样本构造出一个平面来估计总体真实平面,即以平面ŷ= a+b1x1+ b2x2去拟合原始观测数据。

拟合的准则是最小二乘法原理,使各观测值距离拟合值的偏差平方和最小,即∑(yi-ŷ)2最小。

由此计算出的a,b1, b2是对α, β1, β2的最佳估计。

例如对施肥量X1、降雨量X2和产量Y的数据,SPSS输出结果(表1):即得到ŷ= 266.7+3.81x1+3.33x2三、回归系数的意义对于模型ŷ= a+b1x1+ b2x2,b1可以解释为:当X2不变的情况下,X1每变化一个单位,Y将平均发生b1个单位的变化。

如果所有自变量都同时变化,那么ΔY= b1ΔX1+ b2ΔX2+…. b iΔX i。

例题:如果对产量、施肥量、降雨量做出了简单回归和多元回归模型:A模型:产量=287+5.9施肥量;B模型:产量=400+6.0降雨量;C模型:产量=267+3.81施肥量+3.33降雨量;请计算:(1)如果在每亩土地上多施10斤肥料,可以期望产量增加多少?(2)如果在每亩土地上多灌溉5厘米的水,可以期望产量增加多少?(3)如果同时在每亩土地上多施10斤肥料,并且多灌溉5厘米的水,可以期望产量增加多少?(4)由原始数据发现较高的施肥量和较高的降雨量是有联系的,如果照这样的趋势下去,那么在每亩土地上多灌溉5厘米的水,可以期望产量增加多少?解:(1)ΔY=3.81(10)=38.1斤。

如何理解和使用多元线性回归分析

如何理解和使用多元线性回归分析

如何理解和使用多元线性回归分析多元线性回归分析是一种统计分析方法,用于探索自变量与因变量之间的关系。

它基于线性假设,假设自变量和因变量之间存在线性关系,并通过最小二乘法估计未知参数。

多元线性回归可以同时考虑多个自变量对因变量的影响,相比于一元线性回归,具有更多的灵活性和应用场景。

以下是关于多元线性回归分析的理解和使用。

一、理解多元线性回归分析:1.模型表达:多元线性回归模型可以表示为:Y=β0+β1X1+β2X2+...+βnXn+ε,其中Y是因变量,X1~Xn是自变量,β0~βn是回归系数,ε是误差项。

2.线性假设:多元线性回归假设自变量和因变量之间的关系是线性的,即因变量的期望值在给定自变量的条件下是一个线性函数。

3.参数估计:根据最小二乘法原理,通过使残差平方和最小化来估计回归系数。

最小二乘估计量是使得残差平方和最小的回归系数。

4.假设检验:在多元线性回归中,常用的假设检验包括回归系数的显著性检验、模型整体的显著性检验和多重共线性检验等。

二、使用多元线性回归分析:1.确定研究目标:明确研究目标,确定自变量和因变量。

了解问题背景、变量间关系,并结合实际情况选择合适的方法进行分析。

2.数据收集与整理:收集需要的数据,包括自变量和因变量的观测值。

对数据进行验证和清洗,排除缺失值、异常值等。

3.变量选择:根据研究目标和变量间的相关性,进行自变量的筛选。

可以通过相关分析、方差膨胀因子(VIF)等指标来评估自变量间的共线性。

4.模型建立与估计:根据选定的自变量和因变量,使用统计软件进行模型建立和回归系数的估计。

多元线性回归可以通过扩展一元线性回归的方法来计算。

5.模型诊断与改善:对建立的模型进行诊断,检验残差的正态性、独立性、同方差性等假设。

若存在违反假设的情况,则需要考虑进一步改善模型。

6.模型解释与预测:解释回归系数的含义,明确变量间的关系。

利用模型进行预测和决策,对未知因变量进行估计和预测。

7.模型评价与报告:评估模型的拟合程度,包括R方、调整R方、残差分析等指标。

多元线性回归模型案例分析报告

多元线性回归模型案例分析报告

多元线性回归模型案例分析——中国人口自然增长分析一·研究目的要求中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平.此后,人口自然增长率<即人口的生育率>很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型.影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:<1>从宏观经济上看,经济整体增长是人口自然增长的基本源泉;<2>居民消费水平,它的高低可能会间接影响人口增长率.〕3〔文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率<4>人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响.二·模型设定为了全面反映中国"人口自然增长率"的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择"国名收入"及"人均GDP"作为经济整体增长的代表;选择"居民消费价格指数增长率"作为居民消费水平的代表.暂不考虑文化程度及人口分布的影响.从《中国统计年鉴》收集到以下数据<见表1>:表1中国人口增长率及相关数据设定的线性回归模型为: 三、估计参数利用EViews 估计模型的参数,方法是:1、建立工作文件:启动EViews,点击File\New\Workfile,在对话框"Workfile Range".在"Workfile frequency"中选择"Annual" 〕年度〔,并在"Start date"中输入开始时间"1988",在"end date"中输入最后时间"2005",点击"ok",出现"Workfile UNTITLED"工作框.其中已有变量:"c"—截距项"resid"—剩余项.在"Objects"菜单中点击"New Objects",在"New Objects"对话框中选"Group",并在"Name for Objects"上定义文件名,点击"OK"出现数据编辑窗口.2、输入数据:点击"Quik"下拉菜单中的"Empty Group",出现"Group"窗口数据编辑框,点第一列与"obs"对应的格,在命令栏输入"Y",点下行键"↓",即将该序列命名为Y,并依此输入Y 的数据.用同年份 人口自然增长率<%.> 国民总收入<亿元> 居民消费价格指数增长率<CPI>% 人均GDP<元> 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 20065.38 213132 1.5 16024样方法在对应的列命名X 2、X 3、X 4,并输入相应的数据.或者在EViews 命令框直接键入"data Y 2X X 3 X 4… ",回车出现"Group"窗口数据编辑框,在对应的Y 、X 2、X 3、X 4下输入响应的数据.3、估计参数:点击"Procs"下拉菜单中的"Make Equation",在出现的对话框的"Equation Specification"栏中键入"Y C X 2 X 3 X 4",在"Estimation Settings"栏中选择"Least Sqares"〕最小二乘法〔,点"ok",即出现回归结果: 表3.4根据表3.4中数据,模型估计的结果为:〕0.913842〔 〕0.000134〔 〕0.033919〔 〕0.001771〔t= 〕17.08010〔 〕2.482857〔 〕1.412721〔 〕-2.884953〔930526.02=R 915638.02=R F=62.50441四、模型检验1、经济意义检验模型估计结果说明,在假定其它变量不变的情况下,当年国民总收入每增长1亿元,人口增长率增长0.000332%;在假定其它变量不变的情况下,当年居民消费价格指数增长率每增长 1%,人口增长率增长0.047918%;在假定其它变量不变的情况下,当年人均GDP 没增加一元,人口增长率就会降低0.005109%.这与理论分析和经验判断相一致.2、统计检验<1>拟合优度:由表3.4中数据可以得到:930526.02=R ,修正的可决系数为915638.02=R,这说明模型对样本的拟合很好.<2>F 检验:针对0234:0H βββ===,给定显著性水平0.05α=,在F 分布表中查出自由度为k-1=3和n-k=14的临界值34.3)14,3(=αF .由表3.4中得到F=62.50441,由于F=62.50441 >(3,21) 3.075F α=,应拒绝原假设0234:0H βββ===,说明回归方程显著,即"国民总收入"、"居民消费价格指数增长率"、"人均GDP"等变量联合起来确实对"人口自然增长率"有显著影响.<3>t 检验:分别针对0H :0(1,2,3,4)j j β==,给定显著性水平0.05α=,查t 分布表得自由度为n-k=14临界值145.2)(2/=-k n t α.由表3.4中数据可得,与^1β、^2β、^3β、^4β对应的t 统计量分别为17.08010、2.482857、1.412721、-2.884953除^3β,其绝对值均大于145.2)(2/=-k n t α,这说明分别都应当拒绝0H :)4,2,1(0==j j β,也就是说,当在其它解释变量不变的情况下,解释变量"国民总收入"、"人均GDP"分别对被解释变量"人口自然增长率"Y 都有显著的影响.^3β的绝对值小于145.2)(2/=-k n t α,:这说明接受0H :03=β,X3系数对t 检验不显著,这表明很可能存在多重共线性.所以计算各解释变量的相关系数,选择X2、X3、X4数据,点"view/correlations"得相关系数矩阵<如表4.4>:表4.4由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性. 五、消除多重共线性采用逐步回归的办法,去检验和解决多重共线性问题.分别作Y 对X2、X3、X4的一元回归,结果如表4.5所示:表4.5按2R 的大小排序为:X4、X2、X3以X2为基础,顺次加入其他变量逐步回归.首先加入X2回归结果为:t=〕2.542529〔 〕-2.970874〔 920622.02=R当取05.0=α时,131.2)318(025.0)(2/=-=-tt k n α,X2参数的t 检验显著,加入X3回归得t= 〕17.08010〔 〕2.482857〔〕1.412721〔 〕-2.884953〔930526.02=R 915638.02=R F=62.50441当取05.0=α时,145.2)418(2/=-αt ,X3参数的t 检验不显著,予以剔除即40005397.02000350.035540.16ˆX X Y -+=,这是最后消除多重共线性的结果.在假定其它变量不变的情况下,当年国民总收入每增长1亿元,人口增长率增长0.000332%;在假定其它变量不变的情况下,在假定其它变量不变的情况下,当年人均GDP 没增加一元,人口增长率就会降低0.005109%.金服131 王亚平13019122。

多元线性回归分析简介

多元线性回归分析简介
ˆ j 表示 j , j 0,1, , p 的估计值。

y ˆ0 ˆ1x1 ˆp xp
为 y 关于 x 的多元线性经验回归方程(函数),它表示 p+1 维空间中的一个超平面(经验回归平面)。
文档仅供参考,如有不当之处,请联系改正。
引进矩阵的形式:

y
y1
y2

X
1
1
x11 x21
有平方和分解公式 SS=SSR+SSE
文档仅供参考,如有不当之处,请联系改正。
定理 4.5'在 p 元回归分析问题中, SSR 与 SSE 相互独立,
且1
2
SSE
~
2(n
p
1)
;在原假设 H0 成立时,有
12ຫໍສະໝຸດ SSR~2(p)

因此取检验统计量 F=
SSR / p
H0成立时
F(p,n-p-1)
SSE / n p 1
( xi1, , xip , yi )( i 1,2,, n )到回归平面
y ˆ0 ˆ1x1 ˆp xp 的距离的大小。
文档仅供参考,如有不当之处,请联系改正。
一元回归分析中旳结论全部能够推广到多 元旳情形中来。
文档仅供参考,如有不当之处,请联系改正。
定理 4.2' 在 p 元回归分析问题中,(1) ˆ 服从 p+1 维正态分
min
0 ,1 , , p
Q(0,
1,
,p)
文档仅供参考,如有不当之处,请联系改正。
定理 4.1'在 p 元回归分析问题中, 的最小
二乘估计量为 ˆ X X 1 X Y 。
文档仅供参考,如有不当之处,请联系改正。
误差方差的估计:

多元线性回归模型实验报告

多元线性回归模型实验报告

多元线性回归模型实验报告实验报告:多元线性回归模型1.实验目的多元线性回归模型是统计学中一种常用的分析方法,通过建立多个自变量和一个因变量之间的模型,来预测和解释因变量的变化。

本实验的目的是利用多元线性回归模型,分析多个自变量对于因变量的影响,并评估模型的准确性和可靠性。

2.实验原理多元线性回归模型的基本假设是自变量与因变量之间存在线性关系,误差项为服从正态分布的随机变量。

多元线性回归模型的表达形式为:Y=b0+b1X1+b2X2+...+bnXn+ε,其中Y表示因变量,X1、X2、..、Xn表示自变量,b0、b1、b2、..、bn表示回归系数,ε表示误差项。

3.实验步骤(1)数据收集:选择一组与研究对象相关的自变量和一个因变量,并收集相应的数据。

(2)数据预处理:对数据进行清洗和转换,排除异常值、缺失值和重复值等。

(3)模型建立:根据收集到的数据,建立多元线性回归模型,选择适当的自变量和回归系数。

(4)模型评估:通过计算回归方程的拟合优度、残差分析和回归系数的显著性等指标,评估模型的准确性和可靠性。

4.实验结果通过实验,我们建立了一个包含多个自变量的多元线性回归模型,并对该模型进行了评估。

通过计算回归方程的拟合优度,我们得到了一个较高的R方值,说明模型能够很好地拟合观测数据。

同时,通过残差分析,我们检查了模型的合理性,验证了模型中误差项的正态分布假设。

此外,我们还对回归系数进行了显著性检验,确保它们是对因变量有显著影响的。

5.实验结论多元线性回归模型可以通过引入多个自变量,来更全面地解释因变量的变化。

在实验中,我们建立了一个多元线性回归模型,并评估了模型的准确性和可靠性。

通过实验结果,我们得出结论:多元线性回归模型能够很好地解释因变量的变化,并且模型的拟合优度较高,可以用于预测和解释因变量的变异情况。

同时,我们还需注意到,多元线性回归模型的准确性和可靠性受到多个因素的影响,如样本大小、自变量的选择等,需要在实际应用中进行进一步的验证和调整。

多元线性回归分析

多元线性回归分析

多元线性回归分析实验报告7:多元线性回归分析一元线性回归模型研究的是某一个因变量和一个自变量之间的关系问题,但在实际中,经验和常识告诉我们,因变量的变化常常受到不止一个自变量的影响,可能同时有两个或两个以上的自变量对因变量的变化产生影响。

这种研究某一个因变量和多个自变量之间的相互关系的理论和方法就是多元线性回归分析方法,它是一元线性模型的拓展,线性回归分析类似。

设随机变量Y 与(2)p p ≥个一般变量1X ,2X ,,p X 的线性回归模型可表示为:01122p p Y X X X ββββε=+++++ (*)0β称为回归常数,1β,2β,,p β称为偏回归系数,他们决定了因变量Y 与自变量1X ,2X ,,p X 的线性关系的具体形式;ε是随机误差,满足2(0,)N εσ 。

如果获得122221(1)0,en n n Y X Q n p E D I εεβεεχεεσσε=+? ?=--? ?==? ??? n 组观测数据12(,,,;)i i ip i x x x y ,其中1,2,,i n =。

则(*)式可表示为01122i i i p ip i y x x x ββββε=+++++,其中1,2,,i n = 上式写成方程组形式为1011121211201212222201122p p p p n n n p np ny x x x y x x x y x x x ββββεββββεββββε=+++++??=+++++??=+++++?记 121n n y y Y y= ?,111212122212(1)111p p n n np n p x x x x x x X x x x ?+?? ? ?=,01(1)1p p ββββ+??? ? ?= ? ? ??? ,121n n εεεε???= ? ???则回归模型成为20,n Y X E D I βεεεσ=+??==?在p 元正态线性回归模型下,有(1)211(,())p N X X ββσ-+' ;(2)22(1)eQ n p χσ-- ;(3)22()Up χσ;(4)?β与e 相互独立,?β与eQ e e '=相互独立,其中?e Y Y =-. 回归方程的整体显著性检验步骤为:(1)提出原假设与备择假设001:0p H βββ==== (线性关系不显著)1:(1,2,,)j H j p β=不全为0 (线性关系显著)(2)构造F 检验统计量 (1)e U pF Q n p =-- 在原假设0H 成立的条件下,F 统计量服从自由度为(,1)p n p --的F 分布。

多元回归分析

多元回归分析

多元回归分析引言多元回归分析是一种统计方法,用于探究自变量对因变量的影响程度。

它通过建立一个数学模型,分析多个自变量与一个因变量之间的关系,以预测因变量的变化。

本文将介绍多元回归分析的基本原理、应用场景和步骤。

基本原理多元回归分析建立了一个包含多个自变量的线性回归方程,如下所示:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y为因变量,X1、X2、…、Xn为自变量,β0、β1、β2、…、βn为回归系数,ε为误差项。

回归系数表示自变量对因变量的影响程度。

多元回归分析可以通过最小二乘法估计回归系数,即找到使误差项平方和最小的系数值。

在得到回归系数后,可以通过对自变量的设定值,预测因变量的值。

应用场景多元回归分析广泛应用于各个领域,例如经济学、社会科学和工程学等。

以下是一些常见的应用场景:1.经济学:多元回归分析可以用于预测经济指标,如国内生产总值(GDP)和通货膨胀率。

通过分析多个自变量,可以了解各个因素对经济发展的影响程度。

2.社会科学:多元回归分析可以用于研究社会现象,如教育水平和收入水平之间的关系。

通过分析多个自变量,可以找出对收入水平影响最大的因素。

3.工程学:多元回归分析可以用于预测产品质量,如汽车的油耗和引擎功率之间的关系。

通过分析多个自变量,可以找到影响产品质量的关键因素。

分析步骤进行多元回归分析时,以下是一般的步骤:1.收集数据:收集自变量和因变量的数据,并确保数据的可靠性和有效性。

2.数据预处理:对数据进行清洗和转换,以消除异常值和缺失值的影响。

3.变量选择:根据实际问题和领域知识,选择合适的自变量。

可以使用相关性分析、变量逐步回归等方法来确定自变量。

4.拟合模型:使用最小二乘法估计回归系数,建立多元回归模型。

5.模型评估:通过检验残差分布、解释变量的显著性和模型的拟合程度等指标,评估多元回归模型的质量。

6.预测分析:使用已建立的多元回归模型,对新的自变量进行预测,得到因变量的预测值。

多元线性回归分析

多元线性回归分析

多元线性回归分析多元线性回归分析是一种常用的统计方法,用于研究多个自变量与因变量之间的关系。

它可以帮助我们理解多个因素对于一个目标变量的影响程度,同时也可以用于预测和解释因变量的变化。

本文将介绍多元线性回归的原理、应用和解读结果的方法。

在多元线性回归分析中,我们假设因变量与自变量之间存在线性关系。

具体而言,我们假设因变量是自变量的线性组合,加上一个误差项。

通过最小二乘法可以求得最佳拟合直线,从而获得自变量对因变量的影响。

多元线性回归分析的第一步是建立模型。

我们需要选择一个合适的因变量和若干个自变量,从而构建一个多元线性回归模型。

在选择自变量时,我们可以通过领域知识、经验和统计方法来确定。

同时,我们还需要确保自变量之间没有高度相关性,以避免多重共线性问题。

建立好模型之后,我们需要对数据进行拟合,从而确定回归系数。

回归系数代表了自变量对因变量的影响大小和方向。

通过最小二乘法可以求得使残差平方和最小的回归系数。

拟合好模型之后,我们还需要进行模型检验,以评估模型拟合的好坏。

模型检验包括对回归方程的显著性检验和对模型的拟合程度进行评估。

回归方程的显著性检验可以通过F检验来完成,判断回归方程是否显著。

而对模型的拟合程度进行评估可以通过判断决定系数R-squared的大小来完成。

解读多元线性回归结果时,首先需要看回归方程的显著性检验结果。

如果回归方程显著,说明至少一个自变量对因变量的影响是显著的。

接下来,可以观察回归系数的符号和大小,从中判断自变量对因变量的影响方向和相对大小。

此外,还可以通过计算标准化回归系数来比较不同自变量对因变量的相对重要性。

标准化回归系数表示自变量单位变化对因变量的单位变化的影响程度,可用于比较不同变量的重要性。

另外,决定系数R-squared可以用来评估模型对观测数据的拟合程度。

R-squared的取值范围在0到1之间,越接近1说明模型对数据的拟合越好。

但需要注意的是,R-squared并不能反映因果关系和预测能力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一节引言在第一章我们讨论了因变量y只与一个自变量x有关的一元线性回归问题。

但在实际中我们常常会遇到因变量y与多个自变量有关的情况,这就向我们提出了多元回归分析的问题。

多元回归中最简单的是多元线性回归。

多元线性回归分析的基本思想和方法与一元线性回归分析是相同的,即使残差平方和Q达到最小值。

但是,由于多元线性回归分析涉及多个变量之间的相关关系,使问题变得更加复杂。

假设随机变量y 与p个自变量之间存在着线性相关关系,实际样本量为n,其第i次观测值为则其n次观测值可写为如下形式:(2-2-1)其中是未知参数,是p个可以精确测量并可控制的一般变量,是随机误差。

和一元线性回归分析一样,我们假定是相互独立且服从同一正态分布N(0, )的随机变量。

若将方程组(2-2-1)用矩阵表示,则有(2-2-2)式中多元线性回归分析的首要任务就是通过寻求的估计值b,建立多元线性回归方程(2-2-3)来描述多元线性模型(2-2-4)本章主要介绍以下内容:用最小二乘原理估计和,对回归方程和回归系数的显著性进行检验,利用回归方程进行予报和控制,以及在估计的过程中解线性方程组要用到的高斯消去法和消去变换。

第二节多元线性回归方程的建立建立多元线性回归方程,实际上是对多元线性模型(2-2-4)进行估计,寻求估计式(2-2-3)的过程。

与一元线性回归分析相同,其基本思想是根据最小二乘原理,求解使全部观测值与回归值的残差平方和达到最小值。

由于残差平方和(2-2-5)是的非负二次式,所以它的最小值一定存在。

根据极值原理,当Q取得极值时,应满足由(2-2-5)式,即满足(2-2-6)(2-2-6)式称为正规方程组。

它可以化为以下形式(2-2-7)如果用A表示上述方程组的系数矩阵可以看出A是对称矩阵。

则有(2-2-8)式中X是多元线性回归模型中数据的结构矩阵,是结构矩阵X 的转置矩阵。

(2-2-7)式右端常数项也可用矩阵D来表示即因此(2-2-7)式可写成Ab=D (2-2-10)或(2-2-11)如果A满秩(即A的行列式)那么A的逆矩阵A-1存在,则由(2-10)式和(2-11)式得的最小二乘估计为(2-2-12)也就是多元线性回归方程的回归系数。

为了计算方便往往并不先求,再求b,而是通过解线性方程组(2-2-7)来求b。

(2-2-7)是一个有p+1个未知量的线性方程组,它的第一个方程可化为(2-2-13)式中(2-2-14)将(2-2-13)式代入(2-2-7)式中的其余各方程,得(2-2-15)其中(2-2-16)将方程组(2-2-15)式用矩阵表示,则有Lb=F (2-2-17)其中于是b=L-1F (2-2-18)因此求解多元线性回归方程的系数可由(2-2-16)式先求出L,然后将其代回(2-2-17)式中求解。

求b时,可用克莱姆法则求解,也可通过高斯变换求解。

如果把b直接代入(2-2-18)式,由于要先求出L的逆矩阵,因而相对复杂一些。

例2-2-1 表2-2-1为某地区土壤内含植物可给态磷(y)与土壤内所含无机磷浓度(x1)、土壤内溶于K2CO3溶液并受溴化物水解的有机磷浓度(x2)以及土壤内溶于K2CO3溶液但不溶于溴化物的有机磷(x3)的观察数据。

求y对x1, x2, x3的线性回归方程。

表2-2-1 土壤含磷情况观察数据计算如下:由(2-2-16)式代入(2-2-15)式得(2-2-19)若用克莱姆法则解上述方程组,则其解为(2-2-20)其中计算得b1=1.7848,b2=-0.0834,b3=0.1611回归方程为应用克莱姆法则求解线性方程组计算量偏大,下面介绍更实用的方法——高斯消去法和消去变换。

第三节高斯消去法与消去变换从上节的讨论我们知道,要建立多元线性回归方程需要求解线性方程组。

当n较大时解线性方程组变得相当困难。

本节介绍的高斯消去法与消去变换是目前用来解多元线性方程组的方法中比较简单可行的方法。

一、高斯消去法高斯消去法就是通过矩阵的行变换达到消元的目的,从而将方程组的系数矩阵由对称矩阵变为三角矩阵,最后获得方程组的解。

为简明起见,下面我们利用四元线性方程组来说明高斯消去法的基本思路和解题步骤,对于自变量数更多的元线性方程组,其解题步骤和方法是一样的,只是计算工作量更大些而已。

设方程组为(2-2-21)将其记为矩阵形式,则(2-2-22)现在我们的目的是使A变为三角矩阵,从而获得方程组(2-2-21)的解。

假定a11≠0,我们首先保留矩阵的第一行,并利用它来消去其余三行中的第一列。

(2-2-23)即(2-2-24) i- ×①(其中①和i分别为矩阵中①行和i行),得(2-2-25)其中(2-2-26)同理,若,可在保留矩阵A(1)的第一行和第二行的基础上消去第三第四行中的第二列,即令(2-2-27)即(2-2-28)由i - ×①得(2-2-29)其中(2-2-30)同理,若,还可以进一步消元令(2-2-31)可得(2-2-32)其中(2-2-33)经过上述消元过程,方程组(2-2-21)就变成(2-2-34)假如,我们就可以先从最后一个方程求出,然后向上反推,依次求出和。

,即(2-2-35)通常,将由式(2-2-21)逐步化成式(2-2-34)的各步称为消元过程,而称式(2-2-35)为回代过程。

下面我们用高斯消去法求解例2-2-1中的b1,b2,b3。

将方程组写成矩阵形式,则由(2-2-23)、(2-2-24)和(2-2-26)式,得由(2-2-27)、(2-2-28)和(2-2-29)式,得再由(2-2-35)式回代,即得b3=0.16113 b2=-0.083397 b1=1.7848同样由(2-2-13)式b0=43.67由上述运算过程可见,用高斯消去法求解线性方程组,要比用克莱姆法则简单的多。

事实上,我们在使用高斯消去法时,并不需要熟记烦琐的公式,而只需掌握高斯消去法的思路即可完成上述运算过程。

上述消元过程是按照给定的自然顺序,即按的顺序逐个消元的,亦即在第k步消元时,是从第k-1步的方程(2-2-36)作为保留方程,并利用其以下的各方程作线性组合来消去各自所含的xk(使其系数为零),我们称(2-2-36)式和它的系数分别为第k步的主方程和主行,xk的系数为第k步的主元素。

从上面介绍的简单高斯消去法中我们可以知道,为保证消元正常进行,必须保证存在,即第k步消元时要求主元素。

事实上,即使,如果其绝对值相当小,也会使很大,以致于在计算机上运算时溢出而使消元中断,或使最终误差很大。

为了避免上述情况出现,需要在每步消元进行之前做主元素选取。

选取主元素的原则是选择中绝对值最大值作为主元素。

选择方法有两种,一种是按列选取主元素,然后通过行变换使其达到(k,k)位置上,然后进行消元计算。

另一种是全面选择主元素,通过行变换和列变换使其达到(k,k)位置上,然后进行消元计算。

这种先选择主元素,再进行消元的方法称为高斯主元素法。

二、消去变换上面介绍了用高斯消去法求解线性方程组的过程。

用高斯消去法的思想,还可求出线性方程组系数矩阵的逆矩阵。

这在回归分析的假设检验中,是要经常用到的。

求A的逆矩阵的具体做法是作一个更大的增广矩阵(2-2-37)用高斯消去法将A变成单位矩阵,这相当于用A-1分别乘矩阵(2-37)中的A,C,I n,得(I n:A-1C:A-1)这样就得到了A的逆矩阵A-1。

现在我们用这种方法求解线性方程组(2-2-19)的解b及正规矩阵L的逆L-1。

由方程组(2-2-19),并做初等变换如下:于是消去变换总结了上述消去过程,将它的运算表现为算子的形式,这样既节省了存储单元,又易于编制计算机程序。

其详细的做法如下:设,如果,规定以下变换规则:(1)当时,把换成(2)当时,把换成(3)当时,把换成(4)换成经过上述变换,矩阵A变成(2-2-38) 其中*部分第(k,l)位置的元素是(2-2-38)即为对矩阵A进行了(i,j)消去变换后的矩阵,记为,上述变换又称为变换。

变换有如下性质:如果用消去变换的方法求线性方程组的逆矩阵,可以先做增广矩阵(2-2-39) 对其施行消去变换,则变为(2-2-40)便得到线性方程组的解,A的逆矩阵。

最后一个对角元素在回归分析中将得到残差平方和,以后将会详细介绍。

第四节回归方程和回归系数的显著性检验在一元线性回归分析中,我们通常可以首先通过散点图判断变量x与y之间是否存在线性关系。

如果散点图上的实验数据接近于某一条直线,我们便可直观地初步认为二者之间存在线性关系。

但在多元线性回归分析中情况略有不同。

首先我们无法用直观的方法帮助判断y与之间是否有线性关系,为此必须对回归方程进行显著性检验。

其次在p个自变量中,每个自变量对y的影响程度是不同的,甚至有的自变量可有可无。

这表现在回归系数中有的绝对值很大,有的很小或接近于零,这就需要对回归系数进行显著性检验。

一、回归方程的显著性检验对回归方程的显著性检验是指检验假设(2-2-41)如果H0成立,说明不论如何变化,y并不随之而改变,显而易见,在这种情况下用模型(2-2-4)来表示y与自变量的关系是不和适的。

如果H0不成立,说明中至少有一个不等于零,从而y至少随中之一的变化而线性变化。

因此,对回归方程显著性检验是从整体上看y与是否存在线性关系。

与一元线性回归一样,为了建立对H0进行检验的统计量,将总偏差平方和L yy进行分解。

(2-2-42) 其中回归平方和(2-2-43) 残差平方和(2-2-44) 可以证明当H0成立时与相互独立。

因此当H0成立时对于给定的显著性水平,当计算得到的F值满足时,H0不成立,认为在显著性水平下,y与有显著的线性关系,即回归方程是显著的。

反之,则认为回归方程不显著。

这一检验过程与一元线性回归方程的检验相类似,也可在一张分析表中进行,其中和分别由(2-2-43)式和(2-2-44)式计算,方差分析表2-2-2所示。

表2-2-2 方差分析表例如,对于例2-2-1所得多元线性回归方程,可做显著性检验如下:由(2-2-43)式由(2-2-42)式由(2-2-44)式将上述结果代入表2-2-2中制成方差分析表如表2-2-3表2-2-3 例2-2-1方差分析表查F分布表,知时F 0.01(3.14)=5.56。

因为F=5.688>5.56,即F>F0.01,所以回归方程十分显著,在表2-2-3中标以**。

上述检验证明,在例2-2-1中的三个自变量都与因变量有线性关系,且回归方程是十分显著的。

二、回归系数的显著性检验在处理多元回归的实际问题时,我们往往并不满足于判断回归方程的显著性。

因为当我们经过检验认为方程是显著时,即拒绝了这一假设,并不意味着一切都不等于零,即并不意味着每一个自变量对因变量y的影响都是显著的。

相关文档
最新文档