实验十 回归分析实验
线性回归分析实验报告

线性回归分析实验报告线性回归分析实验报告引言线性回归分析是一种常用的统计方法,用于研究因变量与一个或多个自变量之间的关系。
本实验旨在通过线性回归分析方法,探究自变量与因变量之间的线性关系,并通过实验数据进行验证。
实验设计本实验采用了一组实验数据,其中自变量为X,因变量为Y。
通过对这组数据进行线性回归分析,我们将得到回归方程,从而可以预测因变量Y在给定自变量X的情况下的取值。
数据收集与处理首先,我们收集了一组与自变量X和因变量Y相关的数据。
这些数据可以是实际观测得到的,也可以是通过实验或调查获得的。
然后,我们对这组数据进行了处理,包括数据清洗、异常值处理等,以确保数据的准确性和可靠性。
线性回归模型在进行线性回归分析之前,我们需要确定一个线性回归模型。
线性回归模型的一般形式为Y = β0 + β1X + ε,其中Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。
回归系数β0和β1可以通过最小二乘法进行估计,最小化实际观测值与模型预测值之间的误差平方和。
模型拟合与评估通过最小二乘法估计回归系数后,我们将得到一个拟合的线性回归模型。
为了评估模型的拟合程度,我们可以计算回归方程的决定系数R²。
决定系数反映了自变量对因变量的解释程度,取值范围为0到1,越接近1表示模型的拟合程度越好。
实验结果与讨论根据我们的实验数据,进行线性回归分析后得到的回归方程为Y = 2.5 + 0.8X。
通过计算决定系数R²,我们得到了0.85的值,说明该模型能够解释因变量85%的变异程度。
这表明自变量X对因变量Y的影响较大,且呈现出较强的线性关系。
进一步分析除了计算决定系数R²之外,我们还可以对回归模型进行其他分析,例如残差分析、假设检验等。
残差分析可以用来检验模型的假设是否成立,以及检测是否存在模型中未考虑的其他因素。
假设检验可以用来验证回归系数是否显著不为零,从而判断自变量对因变量的影响是否存在。
回归分析 实验报告

回归分析实验报告回归分析实验报告引言回归分析是一种常用的统计方法,用于研究两个或多个变量之间的关系。
通过回归分析,我们可以了解变量之间的因果关系、预测未来的趋势以及评估变量对目标变量的影响程度。
本实验旨在通过回归分析方法,探究变量X对变量Y 的影响,并建立一个可靠的回归模型。
实验设计在本实验中,我们选择了一个特定的研究领域,并采集了相关的数据。
我们的目标是通过回归分析,找出变量X与变量Y之间的关系,并建立一个可靠的回归模型。
为了达到这个目标,我们进行了以下步骤:1. 数据收集:我们从相关领域的数据库中收集了一组数据,包括变量X和变量Y的观测值。
这些数据是通过实验或调查获得的,具有一定的可信度。
2. 数据清洗:在进行回归分析之前,我们需要对数据进行清洗,包括处理缺失值、异常值和离群点。
这样可以保证我们得到的回归模型更加准确可靠。
3. 变量选择:在回归分析中,我们需要选择适当的自变量。
通过相关性分析和领域知识,我们选择了变量X作为自变量,并将其与变量Y进行回归分析。
4. 回归模型建立:基于选定的自变量和因变量,我们使用统计软件进行回归分析。
通过拟合回归模型,我们可以获得回归方程和相关的统计指标,如R方值和显著性水平。
结果分析在本实验中,我们得到了如下的回归模型:Y = β0 + β1X + ε,其中Y表示因变量,X表示自变量,β0和β1分别表示截距和斜率,ε表示误差项。
通过回归分析,我们得到了以下结果:1. 回归方程:根据回归分析的结果,我们可以得到回归方程,该方程描述了变量X对变量Y的影响关系。
通过回归方程,我们可以预测变量Y的取值,并评估变量X对变量Y的影响程度。
2. R方值:R方值是衡量回归模型拟合优度的指标,其取值范围为0到1。
R方值越接近1,说明回归模型对数据的拟合程度越好。
通过R方值,我们可以评估回归模型的可靠性。
3. 显著性水平:显著性水平是评估回归模型的统计显著性的指标。
通常,我们希望回归模型的显著性水平低于0.05,表示回归模型对数据的拟合是显著的。
线性回归分析实验报告

线性回归分析实验报告实验报告:线性回归分析一、引言线性回归是一种基本的统计分析方法,用于研究自变量与因变量之间的线性关系。
此实验旨在通过一个实际案例对线性回归进行分析,并解释如何使用该方法进行预测和解释。
二、实验方法1.数据收集:从电商网站收集了一份销售量与广告费用的数据集,其中包括了十个月的数据。
该数据集包括两个变量:广告费用(自变量)和销售量(因变量)。
2.数据处理:首先对数据进行清洗,包括处理缺失值和异常值等。
然后进行数据转换,对广告费用进行对数转换,以适应线性回归的假设。
3.构建模型:使用线性回归模型,将广告费用作为自变量,销售量作为因变量,构建一个简单的线性回归模型。
模型的公式为:销售量=β0+β1*广告费用+ε,其中β0和β1是回归系数,ε是误差项。
4.模型评估:通过计算回归系数的置信区间和检验假设以评估模型的拟合程度和相关性。
此外,还使用残差分析来检验模型的合理性和独立性。
5.模型预测:根据模型的回归系数和新的广告费用数据,预测销售量。
三、实验结果1.数据描述:首先对数据进行描述性统计。
数据集的平均广告费用为1000元,标准差为200元。
平均销售量为1000件,标准差为150件。
广告费用和销售量之间的相关系数为0.8,说明两者存在一定的正相关关系。
2. 模型拟合:通过拟合线性回归模型,得到回归系数的估计值。
估计值的标准误差很小,R-square值为0.64,说明模型可以解释63%的销售量变异。
3.置信区间和假设检验:通过计算回归系数的置信区间,发现β1的置信区间不包含零,说明广告费用对销售量有显著影响。
假设检验结果也支持这一结论。
4.残差分析:通过残差分析,发现残差的分布基本符合正态性假设,没有明显的模式或趋势。
这表明模型的合理性和独立性。
四、结论与讨论通过线性回归分析,我们得出以下结论:1.广告费用对销售量有显著影响,且为正相关关系。
随着广告费用的增加,销售量也呈现增加的趋势。
2.线性回归模型可以解释63%的销售量变异,说明模型的拟合程度较好。
实验十 回归分析

实验十.回归分析一.实验目的直观了解回归分析基本内容,掌握用matlab 求解回归分析问题。
二.实验原理与方法(一):一元线性回归:一般地,称由εββ++=x y 10确定的模型为一元线性回归模型,记为⎩⎨⎧==++=210,0σεεεββD E x y 固定的未知参数0β、1β称为回归系数,自变量x 也称为回归变量.一元线性回归分析的主要任务是:1.用试验值(样本值)对0β、1β和σ作点估计; 2.对回归系数0β、1β作假设检验 3.在x=0x 处对y 作预测,对y 作区间估计.模型参数估计:1、回归系数的最小二乘估计有n 组独立观测值,(x 1,y 1),(x 2,y 2),…,(x n ,y n )设 ⎩⎨⎧===++=相互独立且,n i i i i D E ni x y εεεσεεεββ..., ,0,...,2,1,21210 记 ()∑∑==--===ni i i ni i x y Q Q 12101210),(ββεββ最小二乘法就是选择0β和1β的估计0ˆβ,1ˆβ使得 ),(min )ˆ,ˆ(10,1010ββββββQ Q = 解得:⎪⎩⎪⎨⎧--=-=22110ˆˆˆx x y x xy x y βββ或 ()()()∑∑==---=ni ini i ix xy y x x1211ˆβ其中∑∑====n i i n i i y n y x n x 111,1,∑∑====n i i i n i i y x n xy x n x 11221,1.(经验)回归方程为: )(ˆˆˆˆ110x x y x y -+=+=βββ 2、2σ的无偏估计记 ()∑∑==-=--==n i ni iiiie yy x yQ Q 11221010)ˆ(ˆˆ)ˆ,ˆ(ββββ称Q e 为残差平方和或剩余平方和.2σ的无偏估计为 )2(ˆ2-=n Q e e σ称2ˆe σ为剩余方差(残差的方差),2ˆe σ分别与0ˆβ、1ˆβ独立。
回归分析 实验报告

回归分析实验报告1. 引言回归分析是一种用于探索变量之间关系的统计方法。
它通过建立一个数学模型来预测一个变量(因变量)与一个或多个其他变量(自变量)之间的关系。
本实验报告旨在介绍回归分析的基本原理,并通过一个实际案例来展示其应用。
2. 回归分析的基本原理回归分析的基本原理是基于最小二乘法。
最小二乘法通过寻找一条最佳拟合直线(或曲线),使得所有数据点到该直线的距离之和最小。
这条拟合直线被称为回归线,可以用来预测因变量的值。
3. 实验设计本实验选择了一个实际数据集进行回归分析。
数据集包含了一个公司的广告投入和销售额的数据,共有200个观测值。
目标是通过广告投入来预测销售额。
4. 数据预处理在进行回归分析之前,首先需要对数据进行预处理。
这包括了缺失值处理、异常值处理和数据标准化等步骤。
4.1 缺失值处理查看数据集,发现没有缺失值,因此无需进行缺失值处理。
4.2 异常值处理通过绘制箱线图,发现了一个销售额的异常值。
根据业务经验,判断该异常值是由于数据采集错误造成的。
因此,将该观测值从数据集中删除。
4.3 数据标准化为了消除不同变量之间的量纲差异,将广告投入和销售额两个变量进行标准化处理。
标准化后的数据具有零均值和单位方差,方便进行回归分析。
5. 回归模型选择在本实验中,我们选择了线性回归模型来建立广告投入与销售额之间的关系。
线性回归模型假设因变量和自变量之间存在一个线性关系。
6. 回归模型拟合通过最小二乘法,拟合了线性回归模型。
回归方程为:销售额 = 0.7 * 广告投入 + 0.3回归方程表明,每增加1单位的广告投入,销售额平均增加0.7单位。
7. 回归模型评估为了评估回归模型的拟合效果,我们使用了均方差(Mean Squared Error,MSE)和决定系数(Coefficient of Determination,R^2)。
7.1 均方差均方差度量了观测值与回归线之间的平均差距。
在本实验中,均方差为10.5,说明模型的拟合效果相对较好。
回归分析实验报告总结

回归分析实验报告总结引言回归分析是一种用于研究变量之间关系的统计方法,广泛应用于社会科学、经济学、医学等领域。
本实验旨在通过回归分析来探究自变量与因变量之间的关系,并建立可靠的模型。
本报告总结了实验的方法、结果和讨论,并提出了改进的建议。
方法实验采用了从某公司收集到的500个样本数据,其中包括了自变量X和因变量Y。
首先,对数据进行了清洗和预处理,包括删除缺失值、处理异常值等。
然后,通过散点图、相关性分析等方法对数据进行初步探索。
接下来,选择了合适的回归模型进行建模,通过最小二乘法估计模型的参数。
最后,对模型进行了评估,并进行了显著性检验。
结果经过分析,我们建立了一个多元线性回归模型来描述自变量X对因变量Y的影响。
模型的方程为:Y = 0.5X1 + 0.3X2 + 0.2X3 + ε其中,X1、X2、X3分别表示自变量的三个分量,ε表示误差项。
模型的回归系数表明,X1对Y的影响最大,其次是X2,X3的影响最小。
通过回归系数的显著性检验,我们发现模型的拟合度良好,P值均小于0.05,表明自变量与因变量之间的关系是显著的。
讨论通过本次实验,我们得到了一个可靠的回归模型,描述了自变量与因变量之间的关系。
然而,我们也发现实验中存在一些不足之处。
首先,数据的样本量较小,可能会影响模型的准确度和推广能力。
其次,模型中可能存在未观测到的影响因素,并未考虑到它们对因变量的影响。
此外,由于数据的收集方式和样本来源的局限性,模型的适用性有待进一步验证。
为了提高实验的可靠性和推广能力,我们提出以下改进建议:首先,扩大样本量,以提高模型的稳定性和准确度。
其次,进一步深入分析数据,探索可能存在的其他影响因素,并加入模型中进行综合分析。
最后,通过多个来源的数据收集,提高模型的适用性和泛化能力。
结论通过本次实验,我们成功建立了一个多元线性回归模型来描述自变量与因变量之间的关系,并对模型进行了评估和显著性检验。
结果表明,自变量对因变量的影响是显著的。
回归分析实验报告

回归分析实验报告实验报告:回归分析摘要:回归分析是一种用于探究变量之间关系的数学模型。
本实验以地气温和电力消耗量数据为例,运用回归分析方法,建立了气温和电力消耗量之间的线性回归模型,并对模型进行了评估和预测。
实验结果表明,气温对电力消耗量具有显著的影响,模型能够很好地解释二者之间的关系。
1.引言回归分析是一种用于探究变量之间关系的统计方法,它通常用于预测或解释一个变量因另一个或多个变量而变化的程度。
回归分析陶冶于20世纪初,经过不断的发展和完善,成为了数量宏大且复杂的数据分析的重要工具。
本实验旨在通过回归分析方法,探究气温与电力消耗量之间的关系,并基于建立的线性回归模型进行预测。
2.实验设计与数据收集本实验选择地的气温和电力消耗量作为研究对象,数据选取了一段时间内每天的气温和对应的电力消耗量。
数据的收集方法包括了实地观测和数据记录,并在数据整理过程中进行了数据的筛选与清洗。
3.数据分析与模型建立为了探究气温与电力消耗量之间的关系,需要建立一个合适的数学模型。
根据回归分析的基本原理,我们初步假设气温与电力消耗量之间的关系是线性的。
因此,我们选用了简单线性回归模型进行分析,并通过最小二乘法对模型进行了估计。
运用统计软件对数据进行处理,并进行了以下分析:1)描述性统计分析:计算了气温和电力消耗量的平均值、标准差和相关系数等。
2)直线拟合与评估:运用最小二乘法拟合出了气温对电力消耗量的线性回归模型,并进行了模型的评估,包括了相关系数、残差分析等。
3)预测分析:基于建立的模型,进行了其中一未来日期的电力消耗量的预测,并给出了预测结果的置信区间。
4.结果与讨论根据实验数据的分析结果,我们得到了以下结论:1)在地的气温与电力消耗量之间存在着显著的线性关系,相关系数为0.75,表明二者之间的关系较为紧密。
2)构建的线性回归模型:电力消耗量=2.5+0.3*气温,模型参数的显著性检验结果为t=3.2,p<0.05,表明回归系数是显著的。
回归分析实验报告

实验报告实验名称:数据整理与分析相关分析实验报告实验课程:统计学数据的整理与分析一、实验目的:学会运用 Excel 中次数分布表、透视表、统计图以及描述性统计功能来分析一组有调查意义的数据;从而通过分析得出有意义的结论以及推测预计。
二、实验原理:次数分布表的制作过程,第一步找出最大、最小值,确定全距R;第二步利用斯透奇斯规则确定组数m,再根据组数与组距的关系确定组距;第三步分组,根据分组标志和分组上限确定在组内数据的频数以及频率。
数据透视表,选中当前数据库表中人一个单元格,单击菜单中的“数据”—“数据透视表与数据透视图”。
直方图是在平面坐标上一横轴根据各组组距的宽度标明各组组距,一纵轴根据次数的高度表示各组次数绘制成的统计图。
折线图是在直方图的基础上,用折线连接各个直方形顶边中点并在直方图形两侧各延伸一组,使者限于横线相连。
三、实验环境:实验地点:实训楼计算机实验中心五楼实验室 3试验时间:第五周周二实验软件: Microsoft Excel 2003四、实验内容1、(1)在数据源中选取所需数据,对数据进行分析。
利用Excel 对数据进行描述性统计分析。
实验内容包括:数据分组、直方图、描述性分析、透视表、实验结果分析。
(2)数据资料:数据来源“9-33各地区农村居民家庭平均每人主要食品消费量(2008 年 )”如下图所示。
2、实验步骤第一步:在数据库中把所要研究的数据对象复制黏贴到新建的Excel 工作表sheet1 中。
我要研究的是“各地区农村居民家庭平均每人主要食品消费量 (2008 年 ) ”挑选了其中的蔬菜。
第二步:对 sheet2 中的数据进行分组。
(1)找出这31个数据中的最大、最小值,得到全距R(2)其次利用斯透奇斯规则确定组数m,再根据组数与组距的关系确定组距 i ;(3)然后分组,根据分组标志和分组上限确定在组内数据的频数以及频率(4)最后得到全国各地区蔬菜消费量的次数分布表。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验十回归分析实验变量之间的关系可以分为两类,一类是确定性的,另一类是非确定性的。
确定型的关系是指:某一个或某几个现象的变动必然会引起另一个现象确定的变动,他们之间的关系可以使用数学函数式确切地表达出来,即()=。
当知道x的数值时,就可y f x以计算出确切的y值来。
如圆的周长与半径的关系:周长2rπ=。
非确定关系则不然,例如,在发育阶段,随年龄的增长,人的身高会增加。
但不能根据年龄找到确定的身高,即不能得出11岁儿童身高一定就是1米40公分。
年龄与身高的关系不能用一般的函数关系来表达。
研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。
如果把其中的一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量,研究他们之间的非确定因果关系,这种分析就称为回归分析。
实验目的:学习利用SPSS进行回归分析。
实验内容:一、一元线性回归分析二、多元线性回归分析三、曲线估计四、Logistic 回归分析五、probit回归分析六、非线性回归分析实验工具:SPSS中回归分析菜单。
一一元线性回归分析知识准备:相关和回归描述的是两变量间联系的不同侧面,一元线性回归分析就是寻找因变量数值随自变量变化而变化的直线趋势,并在散点图上找到这样一条直线,相应的方程也就被称为直线回归方程。
通过回归方程解释两变量之间的关系会显的更为精确,例如可以计算出大白鼠每进食一个单位代乳粉体重平均增加的单位数量,这是相关分析无法做到的。
除了描述两变量的关系以外,通过回归方程还可以进行预测和控制,预测就是在回归方程中控制了变量x的取值范围就可以相应的得到变量y的上下限,而控制则正好相反,也就是通过限制结果变量y的取值范围来得到x的上下限。
这两点在实际的应用中显得尤为重要。
1、一元线性回归分析的原理和要求如果将两个事物的取值分别定义为变量x和y,则可以用回归方程ˆy a b x=+来描述两者的关系,这里需要注意的有两点:①变量x称为自变量,而y为因变量,一般来讲应该有理由认为是由于x的变化而导致y发生变化。
②ˆy不是一个确定的数值,而是对应于某个确定x的群体的y值平均值的估计。
该方程的含义可以从其等式右边的组成来理解。
即每个预测值都可以被分解成两部分:1)常量(constant):为x等于零时回归直线在y轴上的截距即x取值为零时y的平均估计量。
2)回归部分:它刻画因变量y的取值中,由因变量y与自变量x的线性关系所决定的部分,即可以由x直接估计的部分。
b 称为回归系数(Coefficient of Regression),又称其为回归线的斜率(Slope)。
估计值ˆy和每一个实测值y之间的差被称为残差,一般用εi 表示。
它刻画了因变量y除了自变量x以外的其他所有未进入该模型或未知但可能与y有关的随机和非随机因素共同引起的变异,即不能由x直接估计的部分。
往往假定ε服从正态分布i2Nσ。
(0,)回归方程中的参数a和b一般是通过最小二乘原理估计出来的,所谓最小二乘原理就是指使得坐标中每一对x变量和y变量所对应的点到回归直线纵向距离的平方和,或者说残差的平方和最小。
2、一元线性回归分析的适用条件1)线性趋势:自变量与因变量的关系是线性的,如果不是,则不能采用线性回归来分析。
这可以通过散点图来加以判断。
2)独立性:可表述为因变量y的取值相互独立,之间没有联系。
反映到模型中,实际上就是要求残差间相互独立,不存在自相关,否则应当采用自回归模型来分析。
3)正态性:就自变量的任何一个线性组合,因变量y均服从正态分布,反映到模型中,实际上就是要求残差服从正态分布。
4)方差齐性:就自变量的任何一个线性组合,因变量y的方差均相同,实质就是要求残差的方差齐性。
如果只是建立方程,探讨自变量与因变量间的关系,而无需根据自变量的取值预测因变量的容许区间、可信区间等,则后两个条件可以适当放宽。
概括起来,“独立”、“线性”、“正态”、“等方差”是线性回归的四个条件。
3、一元线性回归方程的检验根据原始数据,求出回归方程后就需要对回归方程进行检验。
检验的假设是总体回归系数为0。
另外要检验回归方程对因变量的预测效果如何。
1)回归系数的显著性检验①对斜率的检验,假设是:总体回归系数为0b=.检验该假设的t 值计算公式是:/b t b S E =,其中b S E 是回归系数的标准误。
②对截距的检验,假设是:总体回归方程截距0a =。
检验该假设的t 值计算公式是:/a t b S E =,其中b S E 是截距的标准误。
2)2R 判定系数在判定一个线性回归直线的拟合优度的好坏时,2R 系数是一个重要的判定指标。
2R 判定系数等于回归平方和在总平方和中所占的比率,即2R 体现了回归模型所能解释的因变量变异性的百分比。
如果20.775R=,则说明变量y 的变异中有77.5%是由变量x 引起的。
当21R =时,表示所有的观测点全部落在回归直线上。
当20R=时,表示自变量与因变量无线性关系。
为了尽可能准确的反应模型的拟合度,SPSS 输出中的Adjusted R Square 是消除了自变量个数影响的2R 的修正值。
3)方差分析体现因变量观测值与均值之间的差异的偏差平方和S S T 是由两个部分组成的,即回归平方和S S R,反应了自变量X的重要程度;残差平方和S S E,它反应了实验误差以及其他意外因素对实验结果的影响。
表示为S S T S S R S S E=+。
这两部分除以各自的自由度,得到它们的均方。
统计量F=回归均方/残差均方。
当F值很大时,拒绝0b=的假设。
4)Durbin-Watson检验在对回归模型的诊断中,有一个非常重要的回归模型假设需要诊断,那就是回归模型中的误差项的独立性。
若误差项不独立,那么对回归模型的任何估计与假设所作出的结论均不可靠的。
其参数称为DW或D。
D的取值范围是0<D<4,统计学意义如下:①当残差与自变量互为独立时D≈2。
③当相邻两点的残差为正相关时,D<2。
③当相邻两点的残差为负相关时,D>2。
5)残差图示法;在直角坐标系中,以预测值ˆy为横轴,以ye为纵轴,绘制残差的散点图。
如果散点呈现出与ˆy之间的误差t明显的规律性则,认为存在自相关性问题。
实验背景为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个年龄段抽10个男孩,共抽60个男孩。
资料如下表所示:表1 60个男孩的身高资料如下年龄3岁4岁5岁6岁7岁8岁身高92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.096.5 102.0 109.5 110.0 117.0 125.597.0 105.0 111.0 114.5 122.0 122.5 92.0 99.5 107.5 112.5 119.0 123.5 96.5 102.0 107.0 116.5 119.0 120.5 91.0 100.0 111.5 110.0 125.5 123.0 96.0 106.5 103.0 114.5 120.5 124.0 99.0 100.0 109.0 110.0 122.0 126.5平均身高95.4 101.8 107.6 113.1 120.6 124.0 实验过程1)建立数据文件。
定义变量名:身高为Y,保留1位小数;年龄为X,保留0位小数。
输入原始数据(如图1)。
图12)先作身高与年龄的散点图(如图2),从散点图上,可发现样本点(X,Y)随机地出现在一条直线附近,儿童身高与年龄有很强的直线关系,故可进行一元线性回归分析。
也可进行儿童身高与年龄的相关分析,结果如图3所示,由图3可知:身高与年龄的相关系数为0.965,具有极强的线性相关关系。
图2 图33)选择菜单“Analyze→Regression→Linear ” ,弹出“Linear Regression ”对话框。
从对话框左侧的变量列表中选择变量y ,使之进入“Dependent ”框,选择变量x 进入“Indepentdent(s)”框;在“Method ”处下拉菜单,选用Enter 法(如图4)。
图44)单击“Statistics ”按钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析(如图5)。
图55)单击“Plot”,选择作标准化残差图的直方图和正态概率图等(如图6)。
图66)单击“OK”完成设置,得到输出结果。
结果说明由上表可知:20.931R=,Durbin-Watson检验参数D=≈,通过检验,并且拟合优度很好。
2.4542由方差分析表知:建立的一元线性回归模型效果明显,P值小于0.05.下表是主要的回归系数计算结果,由表中系数可得回归方差为:ˆ78.185 5.854yx =+,并且系数均通过t 检验,由此方程可进行预测,其中 5.854b =表示年龄每增长1岁,身高平均增长5.854厘米。
标准化残差的正态概率图表明残差服从独立性。
二 多元线性回归分析 知识准备1.多元线性回归的概念根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。
多元回归分析的模型为:01122ˆn n y b b x b x b x =++++ 其中ˆy为根据所有自变量x 计算出的估计值,0b 为常数项,12,,,n b b b 称为y 对应于12,,,n x x x 的偏回归系数。
偏回归系数表示假设在其他所有自变量不变的情况下,某一个自变量变化引起因变量变化的比率。
多元线性回归模型也必须满足一元线性回归方程中所述的假设理论。
2.多元线性回归分析中的参数l)复相关系数R。
复相关系数表示因变量y与其他的自变量i x之间线性相关密切程度的指标。
复相关系数的取值范围在0-1之间。
其值越接近1表示其线性关系越强,越接近0表示线性关系越差。
2)2R判定系数与经调整的判定系数与一元回归方程相同,在多元回归中也使用判定系数2R来解释回归模型中自变量的变异在因变量变异中所占比率。
但是,判定系数的值随着进入回归方程的自变量的个数(或样本容量的大小n)的增加而增大。
因此,为了消除自变量的个数以及样本量的大小对判定系数的影响,引进了经调整的判定系数(Adjusted R Square)。
3)零阶相关系数、部分相关与偏相关系数①零阶相关系数(Zero-Order)计算:所有自变量与因变量之间的简单相关系数。
②部分相关(Part Correlation)表示:在排除了其他自变量对i x的影响后,当一个自变量进入回归方程模型后,复相关系数的平均增加量。