第十一章线性相关分析报告与线性回归分析报告

第十一章线性相关分析报告与线性回归分析报告
第十一章线性相关分析报告与线性回归分析报告

第十一章线性相关分析与线性回归分析

11.1 两个变量之间的线性相关分析

相关分析是在分析两个变量之间关系的密切程度时常用的统计分析方法。最简单的相关分析是线性相关分析,即两个变量之间是一种直线相关的关系。相关分析的方法有很多,根据变量的测量层次不同,可以选择不同的相关分析方法。总的来说,变量之间的线性相关关系分为三种。一是正相关,即两个变量的变化方向一致。二是负相关,即两个变量的变化方向相反。三是无相关,即两个变量的变化趋势没有明显的依存关系。两个变量之间的相关程度一般用相关系数r 来表示。r 的取值范围是:-1≤r≤1。∣r∣越接近1,说明两个变量之间的相关性越强。∣r∣越接近0,说明两个变量之间的相关性越弱。相关分析可以通过下述过程来实现:

11.1.1 两个变量之间的线性相关分析过程

1.打开双变量相关分析对话框

执行下述操作:

Analyze→Correlate(相关)→Bivariate(双变量)打开双变量相关分析对话框,如图11-1 所示。

图11-1 双变量相关分析对话框

2.选择进行相关分析的变量

从左侧的源变量窗口中选择两个要进行相关分析的变量进入Variable 窗口。

3.选择相关系数。

Correlation Coefficient 是相关系数的选项栏。栏中提供了三个相关系数的选项:(1)Pearson:皮尔逊相关,即积差相关系数。适用于两个变量都为定距以上变量,且两个

变量都服从正态分布的情况。这是系统默认的选项。

(2)Kendall:肯德尔相关系数。它表示的是等级相关,适用于两个变量都为定序变量的情况。

(3)Spearman:斯皮尔曼等级相关。它表示的也是等级相关,也适用于两个变量都为定序变量的情况。

4.确定显著性检验的类型。

Test of Significance 是显著性检验类型的选项栏,栏中包括两个选项:

(1)Two-tailed:双尾检验。这是系统默认的选项。

(2)One-tailed:单尾检验。

5.确定是否输出相关系数的显著性水平

Flag significant Correlations:是标出相关系数的显著性选项。如果选中此项,系统在输出结果时,在相关系数的右上方使用“*”表示显著性水平为0.05;用“**”表示显著性水平为0.01。

6. 选择输出的统计量

单击Options 打开对话框,如图11-2 所示。

图11-2 相关分析选项对话框

(1)Statistics 是输出统计量的选项栏。

1)Means and standard deviations 是均值与标准差选项。选择此项,系统将在输出文件中输出均值与标准差。

2)Cross- product deviations and covariances 是叉积离差与协方差选项。选择此项,系统将在输出文件中输出每个变量的离差平方和与两个变量的协方差。

上述两项选择只有在主对话框中选择了Pearson:皮尔逊相关后,计算结果才有价值。

(2)缺失值的处理办法

Missing Valuess 是处理缺失值的选项栏。

1)Exclude cases pairwise 是成对剔除参与相关系数计算的两个变量中有缺失值的个案。2)Exclude cases listwise 是剔除带有缺失值的所有个案。

上述选项做完以后,单击Continue 按钮,返回双变量相关分析对话框。

8.单击OK 按钮,提交运行。系统在输出文件窗口中输出相关分析的结果。

11.1.2 两个变量之间的线性相关分析实例分析

实例:在“休闲调查1”中,对被调查者的“住房面积”和“家月收入”作相关分析

打开数据文件“休闲调查1”后,执行下述操作:

1.Analyze→Correlate→Bivariate 打开双变量相关分析对话框。

2.从左侧的源变量中选择“住房面积”和“家月收入”进入Variable 窗口。其它选项采用系统默认状态。

3.单击Options 按钮,打开对话框。

选择Means and standard deviations 选项和Cross- product deviations and covariances 选项。

单击Continue 按钮,返回双变量相关分析对话框。

4.单击OK 按钮,提交运行。可以在输出文件中看到相关分析的结果如表11-1、表11-2 所示

表11-1 变量的描述统计

表11-2相关分析表

由于在选项中选择了Means and standard deviations选项。所以在输出文件中出现了表11-1,表中的内容就是两个变量的平均值、标准差和个案数。

表11-2是以交叉表的形式表现的相关分析的结果。下面将表的内容作如下解释:Pearson Correlation是皮尔逊相关系数。在它右侧“住房使用面积”一列中对应的数据为1.000,这是“住房使用面积”与“住房使用面积”的相关系数。由于使用同一个变量计算相关,数据完全一一对应,所以计算的相关系数为1。在“家月收入”下面对应的数据为0.393,这是“住房使用面积”与“家月收入”的皮尔逊相关系数。

Sig. (2-tailed)是双端检验的显著性水平。可以看出,相关系数0.393 的显著性水平为0.000,表明总体中两个变量的相关是显著的。0.393 的“**”和表下面的英文说明Correlation is significant at the 0.05 level (2-tailed) (相关系数在0.01 的水平

上显著)即说明了这一点。Sum of Squares and Cross-products 是离差平方和与叉积和。如果以“家月收入”为X 变量,“住房使用面积”为Y 变量的话,离差平方和是指

()2∑-X X 或()2∑-Y Y 。差积和是指Σ(x ? x )(y ? y )。表11-2 中“家月收入”一列下面所对应的94462797 是“家月收入”变量的离差平方和。而879447.51 则是差积和。Covariance 是协方差。表11-2 中“家月收入”一列下面所对应的3118.608 是“家月收入”的方差。“住房使用面积”一列下面所对应的187.904 是“家月收入”变量与“住房使用面积”变量的协方差。从输出的情况来看,“住房面积”和“家月收入”呈正相关,其相关系数为0.393,在总体中这个相关系数在0.01 的水平上是显著的。

11.2 线性回归分析

回归分析是用确定性的方法来研究变量之间的非确定性关系的最重要的方法之一。非确定性关系是指变量在变化过程中表现出来的数量上具有一定的依存性,但并非象函数关系那样一一对应的关系。如果把其中的一个或几个变量作为自变量,把另一个随着自变量的变化而变化的变量作为因变量,通过建立线性关系的数学模型来研究它们之间的非确定性的关系的方法就是回归分析的方法。由于回归分析中表现的是自变量和因变量之间的关系,所以这种方法也多用于研究因果关系的数量表现。在SPSS 中的回归分析方法有七种,本节只介绍最简单、最常用的线性回归分析。

回归分析在Analyze 的下拉菜单中,如图11-3 所示。

图11-3 回归分析的指令菜单

图中的主菜单中Regression 是回归,二级菜单中的Linear 是线性。

11.2.1 一元线性回归

11.2.1.1 一元线性回归的原理

1.一元线性回归方程

一元线性回归也就是直线回归。适用于对两个定距以上变量之间关系的分析。是通过给一定

数量的样本观测值拟合一条直线 bx a y

+=?,来研究变量之间关系的方法。这条直线也叫回归直线或回归方程。求回归方程的过程就是利用观测值求出方程中的回归直线中的a 、b 两个系数。一般采用最小二乘法。a 是回归直线的截距,b 是回归直线的斜率,也称为回归系数。

2.回归方程的假定条件

有了回归直线,每一个样本观测值都可以表示为 y i = a + bx i +εi 。(i=1,2…n )εi 称为随机误差项。用回归方程来表示变量之间的关系需要满足一定的假定条件。这些假定条件是:(1) 正态性假定。即随机误差项εi 服从正态分布。

(2) 零均值假定。εi 的均值为零,即E(εi )=0。

(3) 同方差假定。εi 分布的方差相等。

(4) 独立性假定。εi 是相互独立的随机变量。

(5) 无系列相关假定。εi 的变化与x i 的变化无相关

上述的假定条件中有一个不满足,回归方程都是没有价值的。由于上述的假定都是对总体而言的,而总体的情况又属于未知。因此在建立回归方程后应该用样本观测值对上述假定进行检验。

3.回归方程的显著性检验

由于回归方程是用样本观测值建立的,用它来描述总体情况时,需要进行假设检验。

(1)回归系数的显著性检验

1)对回归系数b 的检验:检验的原假设是b=0,检验的方法是T 检验。

2)对截距a 的检验:检验的原假设是a=0,检验的方法是T 检验。

(2)对回归直线拟合优度的检验

采用最小二乘法可以给任何一组数据配合一条直线。但只有两个变量之间的相关较强时,用

回归直线来描述它们之间的关系才有意义。回归直线拟合优度检验的指标是判定系数R 2。

R 2=r 2,即相关系数的平方。它说明因变量的变化中有多少是由自变量的变化引起的。如R 2=0.65,则说明,因变量的变化中的65%是由自变量的变化引起的。R 2越接近1,说明拟合优

度越好。R 2=0,说明自变量与因变量没有任何关系,配合回归直线没有价值。

(3)对回归直线意义的检验

对一组数据配合回归直线是否有意义,可以通过方差分析和F 检验的方法来确定。把某一样本观测值到回归直线的距离的平方和定义为残差平方和。它反映了除自变量以外的其它因素对因变量的影响。把回归直线到总平均值之间的距离的平方和定义为回归平方和。它反映了自变量对因变量的影响。如果回归平方和很大而残差平方和很小,说明自变量对因变量的解释能力很大,则配合回归直线有意义。反之则说明配合回归直线没有意义。将两个平方和分别除以各自的自由度,就得到了平均回归平方和及平均残差平方和。统计量F=平均回归平方和/平均残差平方和。F 值过小,达不到显著性水平,说明自变量对因变量的解释力度很差,配合回归直线没有意义。

(4)残差的独立性检验

残差的独立性检验也称系列相关检验。如果随机误差项不独立,那么对回归模型的任何估计与假设所做出的结论都是不可靠的。残差的独立性检验是通过Durbin-Watson 检验来完成

的。Durbin-Watson 检验的参数用D 表示。D 的取值范围是0<D<4。当残差与自变量相互独立时,D≈2。当相邻两点的残差正相关时,D<2。当相邻两点的残差负相关时,D>2。其它如随机误差项的零均值,同方差,独立性的检验可根据残差散点图来进行。将在后面的输出文件中介绍。

11.2.1.2 一元线性回归的分析过程

1.打开回归分析对话框

执行下述操作:

Analyze→Regression→Linear 打开对话框,如图11-4所示。由于回归分析的选项很多,本节只介绍与一元线性回归模型的建立及各种检验有关的选项。

图11-4 回归分析对话框

2.选择回归分析的因变量与自变量

从左侧源变量窗口中选择一个变量作为因变量进入Dependent(s)窗口。再选择一个变量作为自变量进入Independent窗口。

3.确定回归分析结果的输出内容

单击Statistics按钮,打开对话框,如图11-5所示。

图11-5 回归分析统计量输出对话框

该对话框包括三部分。

(1)Regression Coefficients是回归系数选项栏。该栏中包括三项内容。与一元回归有关的选项是:

1)Estimates是输出估计值的选项。若选择此项,则在输出文件中输出回归系数B、B的标准误、标准化回归系数beta、B的T检验值以及T值的双侧检验的显著性水平Sig。这是系统默认选项。

2)Confidence intervals是输出回归系数置信区间的选项。选择此项后,系统将在输出文件中输出回归系数95%的置信区间。

(2)在对话框中右上方的五个选项中。与一元回归有关的选项是:

1)Model fit是模型的配置选项。选择此项后,系统将在输出文件中输出引入模型或从模型中剔除的变量,提供复相关系数R、及调整的R2,估计值的标准误,方差分析表。这是系统的默认选项。

2)Descriptives是输出描述统计结果的选项。选择此项后,系统将输出所有变量的个案数、均值、标准差和相关系数矩阵及单侧检验的显著性水平矩阵。

(3)Residuals是残差选项栏。该栏包括两项内容。

1)Durbin-Watson是系列相关检验选项,选择该项后系统将在模型概要中输出Durbin-Watson 的值。

2)Casewise diagnostics是输出个案诊断表的选项。

上述选项作完以后,单击Continue 按钮,返回回归分析对话框。

4.选择输出的图形

单击Plots按钮,打开图形选择对话框,如图11-6所示。

系统默认状态是不输出图形的。但图形对检验残差的正态性,等方差性,奇异值等是非常有帮助的。做图过程为:

图11-6 图形选择对话框

(1)选择坐标轴变量

可以从左侧的源变量窗口中选择两个变量分别进入右侧的X窗口和Y窗口。做了这项选择以后,系统将输出以这两个变量为坐标的散点图。如果要输出多个散点图,可单击Next按钮,在Y和X窗口中再输入另外两个变量。原变量窗口中的七个变量分别为:

1)DEPENDNT是因变量。

2)ZPRED是标准化预测值。

3)ZRESID 标准化残差。

4)DRESID 是剔除残差。

5)ADJPRED调整的预测值。

6)SRESID学生化残差。

7)SDRESID是学生化剔除残差。

(2)确定图形类别

Standardized Residual Plots(标准化残差图)图形类别的选项栏。其中包括两个选项。1)Histogram是输出带有正态曲线的标准化残差的直方图。

2)Normal probability plot输出残差的正态概率图。

上述选项作完以后,单击Continue 按钮,返回回归分析对话框。

5.确定保存变量

单击Save按钮,打开保存变量对话框,如图11-7所示。

图11-7保存变量对话框

该对话框中有较多的选项,系统将把被选择的分析结果作为新变量保存到数据窗口中。

下面只介绍最常用的两个:

(1)Unstandardized是保存非标准化预测值。

(2)Standardized是保存标准化预测值。

上述选项作完以后,单击Continue 按钮,返回回归分析对话框。

6.单击OK按钮,提交运行。系统在输出文件窗口中输出回归分析的结果

11. 2. 1.3 一元线性回归的实例分析

实例:在“休闲调查”中以“住房面积”为因变量,以“家月收入”为自变量进行回归分析。

打开数据文件“休闲调查”后,执行下述操作:

1.Analyze→Regression→Linear 打开图11-4 所示的回归分析对话框。

2.从左侧源变量窗口中选择“住房面积”作为因变量进入Dependent(s)窗口。再选择“家月收入”作为自变量进入Independent窗口。

3.单击Statistics按钮,打开如图11-5所示的统计量输出对话框。选择Durbin-Watson选项。

单击Continue 按钮,返回回归分析对话框。

4.单击Plots按钮,打开如图11-6所示的图形选择对话框。

从左侧的源变量窗口中选择ZPRED(标准化预测值)进入X窗口,选择ZRESID(标准化残差)进入Y窗口。选择Histogram选项。单击Continue 按钮,返回回归分析对话框。

5.单击Save按钮,打开如图11-5所示的保存变量对话框。

选择Unstandardized选项。单击Continue 按钮,返回回归分析对话框。

a) 单击OK 按钮,提交运行。可以在输出文件中看到一元回归分析的结果如表11-3、表11-4、表11-5、表11-6、表11-7 和图11-8、图11-9所示

表11-3 进入或剔除模型的变量

Variables Entered/Removed b

a. All requested variables entered.

b. Dependent Variable: 住房使用面积

表11-3表明。只有一个自变量“家月收入”进入了模型。这个输出结果对多元回归分析是非常有价值的。

表11-4 回归模型的概要表

Model Summary b

a. Predictors: (Constant), 家月收入

b. Dependent Variable: 住房使用面积

表11-4的内容是回归模型的概要。“家月收入”与“住房面积”的相关系数R为0.393,模型的判定系数R Square即R2为0.155,由于R2受个案数的影响较大,根据个案数对其进行调整以后的值为Adjusted R Square,它能更好地说明模型的拟合优度。该模型中的Adjusted R Square为0.152,说明自变量对因变量的影响不是太大,因变量的变差中只有15.2%是由自变量引起的。Durbin-Watson的值是1.5,因为比较接近2,所以认为随机误差项基本上相互独立的,不存在序列相关的问题。

表11-5 方差分析表

表11-5的内容是对模型的方差分析与F检验的结果。从表中可以看出,平均的回归平方和(Regression Mean Square)为8187.646,平均的剩余平方和(Residual Mean Square)为159.435。F值为51.354,显著性水平为0.000。由于显著性已经达到0.001的水平,说明配合

回归直线是有意义的。

表11-6 回归系数

表11-6的内容是回归方程的参数及检验结果。从表中可以看出,回归方程的常数项即截距为28.438,截距的标准误差为1.582。T检验值为17.976,显著性水平为0.000。回归方程的斜率即回归系数为0.009,回归系数的标准误差为0.001,标准化回归系数为0.393,T检验值为7.166,显著性水平为0.000。可以在0.001的水平上说明这个斜率对总体是有意义的。

表11-7 残差统计表

表11-7中的Predicted Values是预测值,Residual是残差。Std. Predicted Values是标准化预测值。Std. Residual是标准化残差。从表中可以看出,残差的平均值为0。标准化残差的平均值为0。说明残差的分布满足均值为零的假设。

图11-8标准化残差的直方图

从图11-8中可以看出,残差的分布基本呈正态。

图11-9残差分布的散点图

图11-9是以标准化预测值为横轴,以标准化残差为纵轴绘制的散点图。可以用于检验等方差性和奇异值的情况。如果残差分布具有等方差性,则图中的散点应该在由原点发出的横线上下的确定的范围内分布。从图中可以看出,残差的分布基本满足等方差性的要求。还可以在“休闲调查1”的数据窗口中看到在数据文件中又增加了一个变量Pre_1,如图11-10所示。这个Pre_1便是由回归方程计算出的预测值。

图11-10 以标准化预测值为新变量的统计结果

11.2.2 多元线性回归

11.2.2.1 多元线性回归的过程

多元线性回归是研究多个变量之间因果关系的最常用的的方法之一。在多个变量中有一个是因变量。因变量应该是定距以上的变量。其它的变量是自变量。自变量的个数应在两个或两个以上,但每个自变量与因变量之间的关系都是线性的。由于任何一个社会现象的变化都可能是由多个因素引起的,因此多元回归在解释一果多因的变量之间的关系时显得特别有效。

由于回归分析的选项较多,而且适用于一元回归的选项均适用于多元回归。在一元回归的输出文件中的内容在多元回归中也都输出。所以在介绍多元线性回归的实现过程及输出结果的解释中重复的部分不再介绍。多元线性回归的实现过程如下:

1.打开回归分析对话框

执行下述操作:

Analyze→Regression→Linear 打开如图11-11所示的对话框。这是一个与图11-4完全相同的对话框。

图11-11 回归分析对话框

2.选择回归分析的因变量与自变量

从左侧源变量窗口中选择一个变量作为因变量进入Dependent(s)窗口。再选择多个自变量进入Independent 窗口。

3.确定自变量的挑选方法

Method 是回归分析中自变量的挑选方法的选择窗口。由于人为选定的自变量未必是对因变量有较大影响的变量。系统要根据自变量对因变量作用的大小,从选定的自变量中筛选出一部分自变量作为回归模型中的自变量。最终保留在模型中的自变量应该是对因变量的变化贡献较大的变量。在Method 窗口中有五个选项。本节只介绍Enter、Backward 和Stepwise三个较常用的选项。

(1)Enter 是强行进入法选项。即所有选择的自变量全部进入回归模型。这是系统默认的

选项。可根据各个自变量的回归数T 检验的值是否达到了显著性水平来确定那些自变量应进入模型。

(2)Backward 向后剔除法选项。先将全部所选变量进入模型,每次剔除一个使方差分析的F 值最小且T 检验达不到显著性水平的变量,直到回归某型中不再含有达不到显著性水平的自变量为止。

(3)Stepwise 逐步进入法选项。首先根据方差分析的结果选择对因变量贡献最大的自变量进入方程。每加入一个自变量进行一次方差分析,如果有自变量使F 值最小且T 检验达不到显著性水平,则予以剔除。这样重复进行,直到回归方程中所有的自变量均符合进入模型的要求,而模型外的变量均不符合进入模型的要求为止。

4.确定输出的统计量

单击Statistics 按钮,打开如图11-5所示的对话框。下面对该对话框中与多元回归分析有关的选项作如下介绍。

图11-5 回归分析统计量输出对话框

(1)Regression Coefficients 是回归系数选项栏。前两项在一元回归中均有介绍。Covariance matrix 是输出回归系数的协方差矩阵、各变量的相关系数矩阵。

(2)在模型及拟合效果的选项中:

1)R squared change是R2的变化。选择此项后,系统将输出回归方程引入或剔除一个自变量后R2的变化量。R2的变化量用R ch表示。R ch较大说明引入或剔除的自变量是一个对因变量影响较大的自变量。

2)Part and patial correlation是相关系数选项。选择此项后,系统将输出回归方程的部分相关系数(表明当一个自变量进入方程后R2增加了多少)、偏相关系数(表明排出了其它的自变量对Y的影响后,某个自变量与Y的相关程度)和零阶相关系数(表明变量之间的简单相关系数)。

3)Collinearity diagnostics 是共线性诊断选项。选择此项后,系统将输出各变量的容限度、方差膨胀因子和共线性诊断表。

上述选项作完以后,单击Continue 按钮,返回回归分析对话框。

5.确定自变量引入模型或从模型中剔除的的标准及缺失值的处理方法

单击Option按钮,打开选项对话框,如图11-12所示。

图11-12选项对话框

(1)确定判断标准

Stepping Method Criteria是设置变量引入模型或从模型中剔除的判断标准栏。

1)Use probability of F是以F的概率作为变量引入模型或从模型中剔除的判断标准。系统默认状态是,当一个变量的F值的显著性水平T Sig.≤0.05时,该变量被引入回归方程。当一个变量的F值的显著性水平T Sig.≥0.1时,该变量被从模型中剔除。也可以根据需要通过在Entry窗口和Removal窗口输入数值的方法,自己设定这两个数值。

2)Use F values是以F值作为变量引入模型或从模型中剔除的判断标准。系统默认状态是,当一个变量的F值≥3.84,该变量被引入回归方程。当一个变量的F值≤2.71时,该变量被从模型中剔除。也可以通过选择Use F values 选项,并在被激活的Entry窗口和Removeal窗口输入数值的方法,根据需要自己设定这两个数值。

(2)Include constant in equation是在方程中包含常数项的选项。这是系统默认选项。(3)Missing Valuess是缺失值的处理方法。

1)Exclude cases listwise 剔除参与回归分析的任何变量中的缺失值。也就是分析中使用的个案在所有变量上都具有合法值。

2) Exclude cases pairwise 是成对删除缺失值。

3) Replace with mean 是用平均值代替缺失值。

上述选项作完以后,单击Continue 按钮,返回回归分析对话框。

6.单击OK按钮,提交运行。系统在输出文件窗口中输出回归分析的结果

11.2.2.2多元线性回归的实例分析

实例:在“贫困调查”中以“月支出”为因变量,以“满意度2”、“年龄”、“住房面积”、“月平均低保金”、“教育水平”为自变量进行多元回归分析。

打开数据文件“贫困调查”后,执行下述操作:

1.Analyze→Regression→Linear 打开图11-11 所示的回归分析对话框。

2.从左侧源变量窗口中选择“月支出”作为因变量进入Dependent(s)窗口。再选择“年龄”、“住房面积”、“低保金”、“教育水平”“满意度2”作为自变量进入Independent窗口。3.在Method窗口中选择Backward选项。

4.单击Statistics按钮,打开如图11-5所示的统计量输出对话框。选择Durbin-Watson选项。选择Collinearity diagnostics选项。单击Continue 按钮,返回回归分析对话框。

5.单击Plots按钮,打开如图11-6所示的图形选择对话框。

从左侧的源变量窗口中选择ZPRED(标准化预测值)进入X窗口,选择ZRESID(标准化残差)进入Y窗口。选择Histogram选项。单击Continue 按钮,返回回归分析对话框。

6.单击Save按钮,打开如图11-5所示的保存变量对话框。选择Unstandardized选项。单击Continue 按钮,返回回归分析对话框。

7.单击OK 提交运行。可以在输出文件中看到多元回归分析的结果。下面主要介绍在一元回归分析结果中没有出现过的表格和图形。

表11-9 变量的进入与剔除表

由于在回归模型的建立方法中选择了向后剔除法(Backward)。表11-6的内容说明系统一共建立了四个模型,第一个模型中包括了全部选定的自变量。在第二个模型中剔除了“满意度2”这个变量。在第三的模型中剔除了“低保金”这个变量。在第四个的模型中剔除了“教育水平”。原因是这三个变量F值的概率均大于0.1。

表11-10 多元回归模型的统计概要

从表11-10中可以看出,包含了“年龄”、“住房面积”、“低保金”、“教育水平”、“满意度2”五个自变量的第一个模型的调整的判定系数Adjusted R Square为0.246。剔除了“满意度2”这个变量后,包含了“年龄”、“住房面积”、“低保金”、“教育水平”四个自变量的第二个模型的调整的判定系数Adjusted R Square为0.255。剔除了“满意度2”和“低保金”两个变量后,包含了“年龄”、“住房面积”和“教育水平”三个自变量的第三个模

型的调整的判定系数Adjusted R Square为0.263。剔除了“满意度2”和“低保金”和“教育水平”三个变量后,包含了“年龄”和“住房面积””两个自变量的第四个模型的调整的判定系数Adjusted R Square为0.251。由于剔除了“教育水平”以后,判定系数略微减小了,说明“教育水平”对因变量还多少有一点影响。但由于达不到显著性水平被从模型中剔除。

表11-11 多元回归模型的方差分析表

从表11-11中可以看出,每个模型都达到了0.00的显著性水平。说明配合回归模型是有意义的。但随着无效变量被逐步剔除,F值愈来愈大。这说明只包含“年龄”和“住房面积”两个变量的模型的拟合优度是最好的。

表11-12 多元回归模型的回归系数表

表11-12中根据三个包含自变量数不同的模型,分别给出了回归系数、回归系数的标准误、标准化回归系数、T检验值、T检验值的显著性水平。从第一个包含了五个变量的模型的T检验值和显著性水平可以看出,“满意度2”、“低保金”和“教育水平”三个变量T检验值均达不到0.1的水平。根据向后剔除法,先剔除了显著性水平最差的“满意度2”这个变量。但从包含了四个变量的第二个模型中可以看出,剔除了“满意度2”后,“年龄”的显著性有所增加。但“低保金”和“教育水平”的显著性仍然达不到0.1的水平。因此它们也被从模型中逐步剔除了。随着无效变量被剔除,“年龄”变量的显著性水平越来越高。最后保留在模型中的两个有效变量是“年龄”和“住房面积”。

《计量经济学》eviews实验报告一元线性回归模型详解

《计量经济学》实验报告一元线性回归模型 一、实验内容 (一)eviews 基本操作 (二)1、利用EViews 软件进行如下操作: (1)EViews 软件的启动 (2)数据的输入、编辑 (3)图形分析与描述统计分析 (4)数据文件的存贮、调用 2、查找2000-2014年涉及主要数据建立中国消费函数模型 中国国民收入与居民消费水平:表1 年份X(GDP)Y(社会消费品总量) 2000 99776.3 39105.7 2001 110270.4 43055.4 2002 121002.0 48135.9 2003 136564.6 52516.3 2004 160714.4 59501.0 2005 185895.8 68352.6 2006 217656.6 79145.2 2007 268019.4 93571.6 2008 316751.7 114830.1 2009 345629.2 132678.4 2010 408903.0 156998.4 2011 484123.5 183918.6 2012 534123.0 210307.0 2013 588018.8 242842.8 2014 635910.0 271896.1 数据来源:https://www.360docs.net/doc/5218279702.html, 二、实验目的 1.掌握eviews的基本操作。 2.掌握一元线性回归模型的基本理论,一元线性回归模型的建立、估计、检验及预测的方 法,以及相应的EViews软件操作方法。

三、实验步骤(简要写明实验步骤) 1、数据的输入、编辑 2、图形分析与描述统计分析 3、数据文件的存贮、调用 4、一元线性回归的过程 点击view中的Graph-scatter-中的第三个获得 在上方输入ls y c x回车得到下图

一元线性回归分析实验报告

一元线性回归在公司加班 制度中的应用 院(系): 专业班级: 学号姓名: 指导老师: 成 绩: 完成时间 :

一元线性回归在公司加班制度中的应用 一、实验目的 掌握一元线性回归分析的基本思想与操作,可以读懂分析结果,并写出回归方程,对回归方程进行方差分析、显著性检验等的各种统计检验 二、实验环境 SPSS21、0 windows10、0 三、实验题目 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经10周时间,收集了每周加班数据与签发的新保单数目,x 为每周签发的新保单数目,y 为每周加班时间(小时),数据如表所示 y 3、5 1、0 4、0 2、0 1、0 3、0 4、5 1、5 3、0 5、0 1. 画散点图。 2. x 与y 之间大致呈线性关系? 3. 用最小二乘法估计求出回归方程。 4. 求出回归标准误差σ∧ 。 5. 给出0 β∧ 与1 β∧ 的置信度95%的区间估计。 6. 计算x 与y 的决定系数。 7. 对回归方程作方差分析。 8. 作回归系数1 β∧ 的显著性检验。 9. 作回归系数的显著性检验。 10. 对回归方程做残差图并作相应的分析。 11. 该公司预测下一周签发新保单01000x =张,需要的加班时间就是多少?

12.给出0y的置信度为95%的精确预测区间。 13.给出 () E y的置信度为95%的区间估计。 四、实验过程及分析 1、画散点图 如图就是以每周加班时间为纵坐标,每周签发的新保单为横坐标绘制的散点图,从图中可以瞧出,数据均匀分布在对角线的两侧,说明x与y之间线性关系良好。 2、最小二乘估计求回归方程 系数a 模型非标准化系数标准系数t Sig、 B 的 95、0% 置信区间 B 标准误差试用版下限上限

一元线性回归分析

第八章 第二节 一元线性回归分析 ●一、什么是回归分析? 测定变量之间数量变化关系的数学方法,称为回归分析。只有一个因变量和一个自变量的线性回归模型,叫一元线性回归模型。由于总体回归函数实际上是未知的,一元线性回归模型称为“样本回归直线”。其近似的函数关系为: t u x y ++=211ββ 其中:β1、β2是待定系数,也叫回归系数。u t 又 称随机干扰项,(或随机误差项)它是一个特殊的随机变量,反映未列入方程式的其他各种因素对y 的影响,随机误差项u t 是无法直接观测的。随机误差项u t 的假定条件如下: ●二、标准假定(高斯假定): (1)误差项的期望值为0,即: )(t u E (2)误差项的方差为常数,即:2 2)()(σ==t t u E u Var ; (3)误差项之间无系列相关关系,其协方差为0, 即:0)()(==s t s t u u E u u Cov ; (4)自变量是给定的变量,与随机误差项线性无关; (5)随机误差项服从正态分布。 ※关于非标准条件下的分析方法参照《计量经济学》。

●三、回归系数β1、β2的估计值 由于假定的第一条,故:x y t 21ββ+=。理论上令: ∑∑=--=-0)(0)(2 2 12 x y y y t ββ 对β1、β2求偏导数,经整理得: ? ??? ?-=--=∑∑∑∑∑x y x x n y x xy n 212 22)(βββ 以相关分析中例题为例: ▲案例1:某地区对15户居民家庭人均可支配收入与某类商品消费支出的调查数据如下:(百元/月) 合计:ΣX=1516,ΣY=423,ΣXY=44632, ΣX 2=163654,ΣY 2 =12311 。代入公式: ??? ??? ? =-??-?==?-=1802 .0151616365415423151644632159872.91515161802.015423221ββ 回归方程为: x y t 1802.09872.9+= ◎ 9.9872和0.1802的经济含义?

第五章 回归分析

第五章回归分析 §1.回归分析的数学模型 1.1.线性统计模型 1.线性回归方程 从一个简单的例子谈起。个人的消费水平Y与他的收入水平X间的关系,大体上可以描述:收入水平高,一般消费水平也高。但Y 和X绝不是简单的线性关系,这从常识便能判别;而且也不是一种确定的数学关系,两个收入水平完全一样的个人,他们的消费水平可能有很大的差异。比较合理的看法是:个人的消费水平Y是一个随机变量,从平均的意义上看,应与收入水平成正比。因此,我们可以给出以下模型: Y = b0 + b1X +ε (1) 其中b0,b1是待定常数,ε是随机变量,且有E(ε)=0,这样就能保证 E(Y) = b0 + b1X (2) 即从平均意义上Y和X线性相关。等式(2)称为变量Y对于变量X的线性回归方程。一般情况下,一个随机变量Y与变量X1,X2,…,X p有关系

Y = b0 + b1X1 + b2X2 + … + b p X p +ε (3) 随机变量ε的期望E(ε)=0,即有: E(Y) = b0+ b1X1 + b2X2+ … + b p X p (4) 从平均意义上,Y与X1,X2,…,X p呈线性关系。(4)式称为变量Y对于变量X1,X2,…,X p的线性回归方程,p=1时,称方程是一元的;p≥2时,称方程是多元的;b0,b1,…,b p称为回归系数。 2.统计模型的假设 设变量Y与X1,X2,…,X p之间有关系(3),对(X1,X2,…,X p,Y)做n 次观察,得到一个容量为n的样本:(x i1,x i2, …,x i p,y i)i=1,2,…,n,按(4)式给出的关系,这些样本观察值应有: y1= b0+ b1x11+ b2x12 + … + b p x1p+ε1 y2= b0+ b1x21+ b2x22 + … + b p x2p+ε2 (5) ………………………………… y n= b0+ b1x n1+ b2x n2 + … + b p x n p+εn 其中的εi, i=1,2,…,n是随机误差,出于数学上推导的需要,假设:1)E(εi)=0,i=1,2,…,n.即观察结果没有系统误差; 2)Var(εi)=σ2,i=1,2,…,n.这个性质叫做方差齐性;

04实验四 地理数据回归分析

实验四地理数据回归分析 一、实验目的 1. 掌握地理数据线性相关的度量方法; 2. 掌握地理数据的一元线性回归分析的方法和步骤; 3. 掌握地理数据一元非线性回归分析的方法和步骤; 4. 掌握地理数据多元线性回归分析的方法和步骤。 二、仪器设备(及耗材) 1. 给定的地理数据 2. 电子计算机 3. Excel软件 4.DPS统计软件 三、简述原理 地理相关分析是应用相关分析法来研究各地理要素间的相互关系和联系强度,以相关系数和等级相关系数作为衡量两个变量线性相关的指标。地理系统各要素间的关系,可通过观测获得一定的数据,并利用回归分析方法,以回归方程的形式表达各要素间的数量关系,进一步可利用建立的回归方程对地理系统中的因变量进行预测、延长、插补或控制等。根据变量关系的类型,回归分析可分为一元线性、一元非线性及多元线性等。 四、实验步骤 1. 计算给定的地理数据中两要素之间的相关系数及等级相关系数; 2. 利用一元线性回归分析方法对给定的地理数据进行回归分析; 3. 利用一元非线性回归分析方法对给定的地理数据进行回归分析; 4. 利用多元线性回归分析方法对给定的地理数据进行回归分析。 五、结果及分析 通过实验进行地理要素的相关分析及回归分析,完成如下内容: 1.附录1的地理要素的线性相关系数及等级相关系数,并对相关系数进行显著性检验; 2. 附录2的地理要素的一元线性回归分析参数一览表(回归直线斜率、截距、判定系数、剩余标准差、回归平方和、剩余平方和、F-检验相关参数及结果); 3.附录2的地理要素的原始数据散点及一元线性回归直线图; 4. 附录3的地理要素的一元非线性回归分析参数一览表(回归曲线的相应参数、相关指数、剩余标准差、回归平方和、剩余平方和); 5. 附录3的地理要素的原始数据散点及一元非线性曲线图; 6. 附录4的地理要素的多元线性回归分析参数一览表(方程常数项、各变量系数、判定系数、剩余标准差、回归平方和、剩余平方和、F-检验相关参数及结果)。

案例分析(一元线性回归模型)

案例分析报告(2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号:2204120202 学生姓名:陈维维 2014 年11月

案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支

实验7 线性回归

实验编号: 07 师大SPSS实验报告2017 年 4 月 24 日 计算机科学学院2015级5班实验名称:线性回归 :唐雪梅学号:2015110538 指导老师:__朱桂琼___ 实验成绩:___ 实验七线性回归 一.实验目的及要求 1.了解SPSS 特点结构操作 2.利用SPSS进行简单数据统计 二.实验容 (1)消费者品牌偏好分析:通过品牌使用时间和价格敏感度了解消费者的品牌偏好。 某彩妆系列产品公司进行了一项关于消费者品牌偏好态度的分析,调研人员收集了有关的调研数据,用11点标尺度量态度(1=非常不喜欢该品牌,11=非常喜欢该品牌)对于价格敏感度的度量也用11点标尺(1=对价格完全不敏

思考题: (1)消费者对品牌的使用时间以及对其价格的敏感度对消费者的品牌偏好有何种影响?它们之间是一种什么样的关系? (2)如果有影响,品牌偏好与使用时间之间的关系能否用一个模型表示出来? (2)销售额和员工数量的关系: 随着公司的持续发展,常常有滑入无效率困境的危险,假定某公司的销售开始滑坡,但公司还是不停地招聘新人,公司有某个10年的关于销售额和员 (1)以销售额为自变量,员工数为因变量画出散点图,并建立一个回归模型,通过员工的数量来预测销售额。 (2)解释回归系数的实际意义。 (3)根据分析的结果回答:如果这个趋势继续下去,你对公司的管理层有何建议?你认为管理层应该关注什么? (3)制度变迁是经济增长的源头,根据研究衡量制度变迁有两个变量:非国有化率和国家财政收入占GDP的比重。 自1998年以来中国的经济增长率一直未突破9%的状态,因此以9%为分界点,将经济增长定义为1(经济增长大于等于9%)或0(经济增长小于9%),

一元线性回归总结分析

第十一章 一元线性回归 本章主要介绍数值型自变量和数值型因变量之间关系的分析方法,这就是相关与回归分析。如果研究的是两个变量之间的关系,称为简单相关与简单回归分析;如果研究的是两个以上变量之间的关系,称为多元相关与多元回归分析。本章主要讨论简单线性相关和简单线性回归的基本方法。 本章知识结构如下: 主要知识点: 变量间关系的度量 变量之间的关系可分为两种类型,即函数关系和相关关系。 变量之间存在的不确定的数量关系,称为相关关系。 相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量y 的取值可能有几个。对这种关系不确定的变量显然不能用函数关系来描述,但也不是无规律可循。相关与回归分析正是描述与探索这类变量之间关系及其规律的统计方法。 判断相关性的方法: 方法一:散点图法 1、判断变量间的相关性 2、相关关系的显著性检验 r 的显著性检验 步骤:○1提出假设○2计算检验的统计量t ○3进行决策(即比较t 与 t 2 α ) 3、一元线性回归 4、回归方程拟合优度的判断 主要方法 5、回归方程的显著性检验 6、利用回归方程进行预测 7、残差分析 残差、残差图及标准化残差 一 元 线 性 回 归 主要方法 a)散点图法 b)相关系数法 方法及步骤 1、建立模型εββ++=x y 11 2、写出回归方程()x y E 110ββ+= 3、利用最小二乘法对参数进行估计 a) 判定系数法R 2 b) 估计标准误差S e 主要方法 a) 线性关系的检验——模型的检验,即F 检验 b) 回归系数的检验,即t 检验 类型 a) 点估计 b) 区间估计

散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。 方法二:相关系数法 () () ∑∑∑∑∑∑∑-*--= 2 2 2 2 y n x n y x xy n r y x 利用相关系数可以准确度量两个变量之间的关系强度。 利用Excel 软件计算相关系数: “工具” → “数据分析”→“相关系数” → “选入数据” → “确定”即可。 相关关系的显著性检验 考察样本相关系数的可靠性,也就是进行显著性检验。 r 的显著性检验 1、提出假设 0:;0:10 ≠=ρρH H 2、计算检验统计量 ()2~122 ---=n t n r t r 3、进行决策 根据给定的显著性水平α和自由度2-=n df 查t 分布表,得出 ()22 -n t α的临界值。若t t α >,则拒绝原假设H 0,表明总体的两个变 量之间存在显著的线性关系。 一元线性回归 回归模型:εββ++=x y 110 )1,0(=i i β 称为模型的参数。 ε称为误差项,反映了除x 与y 之间的线性关系之外的随机因素 对y 的影响。 一元线性回归方程的形式: ()x y E 110ββ+= β 1 表示当自变量每变化一个单位时,因变量变化β1 个单位。 β 不赋予任何意义。 参数的最小二乘估计: 用Excel 软件进行操作: “工具” → “数据分析” → “回归” → “选入数据” → “确

统计学习题集第五章相关与回归分析(0)

所属章节: 第五章相关分析与回归分析 1■在线性相关中,若两个变量的变动方向相反,一个变量的数值增加,另一个变量数值随之减少,或一个变量的数值减少,另一个变量的数值随之增加,则称为()。 答案: 负相关。干扰项: 正相关。干扰项: 完全相关。干扰项: 非线性相关。 提示与解答: 本题的正确答案为: 负相关。 2■在线性相关中,若两个变量的变动方向相同,一个变量的数值增加,另一个变量数值随之增加,或一个变量的数值减少,另一个变量的数值随之减少,则称为()。 答案: 正相关。干扰项: 负相关。干扰项: 完全相关。干扰项: 非线性相关。 提示与解答:

本题的正确答案为: 正相关。 3■下面的xx中哪一个是错误的()。 答案: 相关系数不会取负值。干扰项: 相关系数是度量两个变量之间线性关系强度的统计量。干扰项: 相关系数是一个随机变量。干扰项: 相关系数的绝对值不会大于1。 提示与解答: 本题的正确答案为: 相关系数不会取负值。 4■下面的xx中哪一个是错误的()。 答案: 回归分析中回归系数的显著性检验的原假设是: 所检验的回归系数的真值不为0。 干扰项: 相关系数显著性检验的原假设是: 总体中两个变量不存在相关关系。 干扰项: 回归分析中回归系数的显著性检验的原假设是:

所检验的回归系数的真值为0。 干扰项: 回归分析中多元线性回归方程的整体显著性检验的原假设是: 自变量前的偏回归系数的真值同时为0。 提示与解答: 本题的正确答案为: 回归分析中回归系数的显著性检验的原假设是: 所检验的回归系数的真值不为0。 5■根据你的判断,下面的相关系数值哪一个是错误的()。 答案: 1.25。干扰项:-0.86。干扰项: 0.78。干扰项:0。 提示与解答: 本题的正确答案为: 1.25。 6■下面关于相关系数的陈述中哪一个是错误的()。 答案: 数值越大说明两个变量之间的关系越强,数值越小说明两个变量之间的关系越弱。 干扰项:

多元线性回归模型实验报告 计量经济学

实验报告 课程名称金融计量学 实验项目名称多元线性回归模型班级与班级代码 实验室名称(或课室) 专业 任课教师xxx 学号:xxx 姓名:xxx 实验日期:2012年5 月3日 广东商学院教务处制

姓名xxx 实验报告成绩 评语: 指导教师(签名) 年月日说明:指导教师评分后,实验报告交院(系)办公室保存

多元线性回归模型 一、实验目的 通过上机实验,使学生能够使用 Eviews 软件估计可化为线性回归模型的非线性模型,并对线性回归模型的参数线性约束条件进行检验。二、实验内容 (一)根据中国某年按行业分的全部制造业国有企业及规模以上制造业非国有企业的工业总产值Y,资产合计K及职工人数L进行回归分析。(二)掌握可化为线性多元非线性回归模型的估计和多元线性回归模型的线性约束条件的检验方法 (三)根据实验结果判断中国该年制造业总体的规模报酬状态如何?三、实验步骤 (一)收集数据 下表列示出来中国某年按行业分的全部制造业国有企业及规模以上制造业非国有企业的工业总产值Y,资产合计K及职工人数L。 序号工业总产值Y (亿元) 资产合计K (亿元) 职工人数L (万人)序号 工业总产 值Y(亿元) 资产合计K (亿元) 职工人数L (万人) 1 3722.7 3078.2 2 11 3 17 812.7 1118.81 43 2 1442.52 1684.4 3 67 18 1899.7 2052.16 61 3 1752.37 2742.77 8 4 19 3692.8 5 6113.11 240 4 1451.29 1973.82 27 20 4732.9 9228.2 5 222 5 5149.3 5917.01 327 21 2180.23 2866.65 80 6 2291.16 1758.7 7 120 22 2539.76 2545.63 96 7 1345.17 939.1 58 23 3046.95 4787.9 222 8 656.77 694.94 31 24 2192.63 3255.29 163 9 370.18 363.48 16 25 5364.83 8129.68 244 10 1590.36 2511.99 66 26 4834.68 5260.2 145 11 616.71 973.73 58 27 7549.58 7518.79 138 12 617.94 516.01 28 28 867.91 984.52 46 13 4429.19 3785.91 61 29 4611.39 18626.94 218 14 5749.02 8688.03 254 30 170.3 610.91 19 15 1781.37 2798.9 83 31 325.53 1523.19 45 16 1243.07 1808.44 33 表1

用Excel做线性回归分析报告

用Excel进行一元线性回归分析 Excel功能强大,利用它的分析工具和函数,可以进行各种试验数据的多元线性回归分析。本文就从最简单的一元线性回归入手. 在数据分析中,对于成对成组数据的拟合是经常遇到的,涉及到的任务有线性描述,趋势预测和残差分析等等。很多专业读者遇见此类问题时往往寻求专业软件,比如在化工中经常用到的Origin和数学中常见的MATLAB等等。它们虽很专业,但其实使用Excel就完全够用了。我们已经知道在Excel自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。 文章使用的是2000版的软件,我在其中的一些步骤也添加了2007版的注解. 1 利用Excel2000进行一元线性回归分析 首先录入数据. 以连续10年最大积雪深度和灌溉面积关系数据为例予以说明。录入结果见下图(图1)。 图1 第二步,作散点图 如图2所示,选中数据(包括自变量和因变量),点击“图表向导”图标;或者在“插入”菜单中打开“图表(H)(excel2007)”。图表向导的图标为。选中数据后,数据变为蓝色(图2)。

图2 点击“图表向导”以后,弹出如下对话框(图3): 图3 在左边一栏中选中“XY散点图”,点击“完成”按钮,立即出现散点图的原始形式(图4):

灌溉面积y(千亩) 01020304050600 10 20 30 灌溉面积y(千亩) 图4 第三步,回归 观察散点图,判断点列分布是否具有线性趋势。只有当数据具有线性分布特征时,才能采用线性回归分析方法。从图中可以看出,本例数据具有线性分布趋势,可以进行线性回归。回归的步骤如下: ⑴ 首先,打开“工具”下拉菜单,可见数据分析选项(见图5)(2007为”数据”右端的”数据分析”): 图5 用鼠标双击“数据分析”选项,弹出“数据分析”对话框(图6):

一元线性回归分析的结果解释

一元线性回归分析的结果解释 1.基本描述性统计量 分析:上表是描述性统计量的结果,显示了变量y和x的均数(Mean)、标准差(Std. Deviation)和例数(N)。 2.相关系数 分析:上表是相关系数的结果。从表中可以看出,Pearson相关系数为0.749,单尾显著性检验的概率p值为0.003,小于0.05,所以体重和肺活量之间具有较强的相关性。 3.引入或剔除变量表

分析:上表显示回归分析的方法以及变量被剔除或引入的信息。表中显示回归方法是用强迫引入法引入变量x的。对于一元线性回归问题,由于只有一个自变量,所以此表意义不大。 4.模型摘要 分析:上表是模型摘要。表中显示两变量的相关系数(R)为0.749,判定系数(R Square)为0.562,调整判定系数(Adjusted R Square)为0.518,估计值的标准误差(Std. Error of the Estimate)为0.28775。 5.方差分析表 分析:上表是回归分析的方差分析表(ANOVA)。从表中可以看出,回归的均方(Regression Mean Square)为1.061,剩余的均方(Residual Mean Square)为0.083,F检验统计量的观察值为12.817,相应的概率p 值为0.005,小于0.05,可以认为变量x和y之间存在线性关系。

6.回归系数 分析:上表给出线性回归方程中的参数(Coefficients)和常数项(Constant)的估计值,其中常数项系数为0(注:若精确到小数点后6位,那么应该是0.000413),回归系数为0.059,线性回归参数的标准误差(Std. Error)为0.016,标准化回归系数(Beta)为0.749,回归系数T检验的t统计量观察值为3.580,T检验的概率p值为0.005,小于0.05,所以可以认为回归系数有显著意义。由此可得线性回归方程为: y=0.000413+0.059x 7.回归诊断 分析:上表是对全部观察单位进行回归诊断(Casewise Diagnostics-all cases)的结果显示。从表中可以看出每一例的标准

实验7线性回归

实验编号: 07 四川师大SPSS实验报告 2017 年 4 月 24 日 计算机科学学院2015级5班实验名称:线性回归 姓名:唐雪梅学号: 2015110538 指导老师:__朱桂琼___ 实验成绩:_ __ 实验七线性回归 一.实验目的及要求 1.了解SPSS 特点结构操作 2.利用SPSS进行简单数据统计 二.实验内容 (1)消费者品牌偏好分析:通过品牌使用时间和价格敏感度了解消费者的品牌偏好。 某彩妆系列产品公司进行了一项关于消费者品牌偏好态度的分析,调研人员收集了有关的调研数据,用11点标尺度量态度(1=非常不喜欢该品牌,11=非常喜欢该品牌)对于价格敏感度的度量也用11点标尺(1=对价格完全不敏

思考题: (1)消费者对品牌的使用时间以及对其价格的敏感度对消费者的品牌偏好有何种影响?它们之间是一种什么样的关系? (2)如果有影响,品牌偏好与使用时间之间的关系能否用一个模型表示出来? (2)销售额和员工数量的关系: 随着公司的持续发展,常常有滑入无效率困境的危险,假定某公司的销售开始滑坡,但公司还是不停地招聘新人,公司有某个10年的关于销售额和员 (1)以销售额为自变量,员工数为因变量画出散点图,并建立一个回归模型,通过员工的数量来预测销售额。 (2)解释回归系数的实际意义。 (3)根据分析的结果回答:如果这个趋势继续下去,你对公司的管理层有何建议?你认为管理层应该关注什么? (3)制度变迁是经济增长的源头,根据研究衡量制度变迁有两个变量:非国有化率和国家财政收入占GDP的比重。 自1998年以来中国的经济增长率一直未突破9%的状态,因此以9%为分界点,将经济增长定义为1(经济增长大于等于9%)或0(经济增长小于9%),

一元线性回归分析实验报告

一元线性回归在公司加班制度中的应用 院(系): 专业班级: 学号姓名: 指导老师: 成绩: 完成时间:

一元线性回归在公司加班制度中的应用 一、实验目的 掌握一元线性回归分析的基本思想和操作,可以读懂分析结果,并写出回归方程,对回归方程进行方差分析、显著性检验等的各种统计检验 二、实验环境 SPSS21.0 windows10.0 三、实验题目 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经10周时间,收集了每周加班数据和签发的新保单数目,x 为每周签发的新保单数目,y 为每周加班时间(小时),数据如表所示 y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0 2. x 与y 之间大致呈线性关系? 3. 用最小二乘法估计求出回归方程。 4. 求出回归标准误差σ∧ 。 5. 给出0 β∧与1 β∧ 的置信度95%的区间估计。 6. 计算x 与y 的决定系数。 7. 对回归方程作方差分析。 8. 作回归系数1 β∧ 的显著性检验。 9. 作回归系数的显著性检验。 10.对回归方程做残差图并作相应的分析。

11.该公司预测下一周签发新保单01000 x=张,需要的加班时间是多少? 12.给出0y的置信度为95%的精确预测区间。 13.给出 () E y的置信度为95%的区间估计。 四、实验过程及分析 1.画散点图 如图是以每周加班时间为纵坐标,每周签发的新保单为横坐标绘制的散点图,从图中可以看出,数据均匀分布在对角线的两侧,说明x和y之间线性关系良好。 2.最小二乘估计求回归方程

用SPSS 求得回归方程的系数01,ββ分别为0.118,0.004,故我们可以写出其回归方程如下: 0.1180.004y x =+ 3.求回归标准误差σ∧ 由方差分析表可以得到回归标准误差:SSE=1.843 故回归标准误差: 2= 2SSE n σ∧-,2σ∧=0.48。 4.给出回归系数的置信度为95%的置信区间估计。 由回归系数显著性检验表可以看出,当置信度为95%时:

实验六-用SPSS进行非线性回归分析

实验六用SPSS进行非线性回归分析 例:通过对比12个同类企业的月产量(万台)与单位成本(元)的资料(如图1),试配合适当的回归模型分析月产量与单位成本之间的关系

图1原始数据和散点图分析 一、散点图分析和初始模型选择 在SPSS数据窗口中输入数据,然后插入散点图(选择Graphs→Scatter命令),由散点图可以看出,该数据配合线性模型、指数模型、对数模型和幂函数模型都比较合适。进一步进行曲线估计:从Statistic下选Regression菜单中的Curve Estimation命令;选因变量单位成本到Dependent框中,自变量月产量到Independent框中,在Models框中选择Linear、Logarithmic、Power和Exponential四个复选框,确定后输出分析结果,见表1。 分析各模型的R平方,选择指数模型较好,其初始模型为 但考虑到在线性变换过程可能会使原模型失去残差平方和最小的意义,因此进一步对原模型进行优化。 模型汇总和参数估计值 因变量: 单位成本 方程模型汇总参数估计值 R 方 F df1 df2 Sig. 常数b1 线性.912 104.179 1 10 .000 158.497 -1.727 对数.943 166.595 1 10 .000 282.350 -54.059 幂.931 134.617 1 10 .000 619.149 -.556 指数.955 212.313 1 10 .000 176.571 -.018 自变量为月产量。 表1曲线估计输出结果

二、非线性模型的优化 SPSS提供了非线性回归分析工具,可以对非线性模型进行优化,使其残差平方和达到最小。从Statistic下选Regression菜单中的Nonlinear命令;按Paramaters按钮,输入参数A:176.57和B:-.0183;选单位成本到Dependent框中,在模型表达式框中输入“A*EXP(B*月产量)”,确定。SPSS输出结果见表2。 由输出结果可以看出,经过6次模型迭代过程,残差平方和已有了较大改善,缩小为568.97,误差率小于0.00000001, 优化后的模型为: 迭代历史记录b 迭代数a残差平方和参数 A B 1.0 104710.523 176.570 -.183 1.1 5.346E+133 -3455.813 2.243 1.2 30684076640.87 3 476.032 .087 1.3 9731 2.724 215.183 -.160 2.0 97312.724 215.183 -.160 2.1 83887.036 268.159 -.133 3.0 83887.036 268.159 -.133 3.1 59358.745 340.412 -.102 4.0 59358.745 340.412 -.102 4.1 26232.008 38 5.967 -.065 5.0 26232.008 385.967 -.065 5.1 7977.231 261.978 -.038 6.0 797 7.231 261.978 -.038 6.1 1388.850 153.617 -.015 7.0 1388.850 153.617 -.015 7.1 581.073 180.889 -.019 8.0 581.073 180.889 -.019 8.1 568.969 182.341 -.019 9.0 568.969 182.341 -.019 9.1 568.969 182.334 -.019 10.0 568.969 182.334 -.019 10.1 568.969 182.334 -.019 导数是通过数字计算的。 a. 主迭代数在小数左侧显示,次迭代数在小数右侧显示。 b. 由于连续残差平方和之间的相对减少量最多为SSCON = 1.000E-008,因此在 22 模型评估和 10 导数评估之后,系统停止运行。

一元线性回归分析实验报告

. . . 一元线性回归在公司加班制度中的应用 院(系): 专业班级: 学号姓名: 指导老师: 成绩: 完成时间:

一元线性回归在公司加班制度中的应用 一、实验目的 掌握一元线性回归分析的基本思想和操作,可以读懂分析结果,并写出回归方程,对回归方程进行方差分析、显著性检验等的各种统计检验 二、实验环境 SPSS21.0 windows10.0 三、实验题目 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经10周时间,收集了每周加班数据和签发的新保单数目,x为每周签发的新保单数目,y为每周加班时间(小时),数据如表所示 2.x与y之间大致呈线性关系? 3.用最小二乘法估计求出回归方程。 4.求出回归标准误差σ∧。 5.给出0β∧与1β∧的置信度95%的区间估计。 6.计算x与y的决定系数。 7.对回归方程作方差分析。 8.作回归系数1β∧的显著性检验。 9.作回归系数的显著性检验。 10.对回归方程做残差图并作相应的分析。 x=,需要的加班时间是多少? 11.该公司预测下一周签发新保单01000

12.给出0y的置信度为95%的精确预测区间。 E y的置信度为95%的区间估计。 13.给出()0 四、实验过程及分析 1.画散点图 如图是以每周加班时间为纵坐标,每周签发的新保单为横坐标绘制的散点图,从图中可以看出,数据均匀分布在对角线的两侧,说明x和y之间线性关系良好。 2.最小二乘估计求回归方程

用SPSS 求得回归方程的系数01,ββ分别为0.118,0.004,故我们可以写出其回归方程如下: 0.1180.004y x =+ 3.求回归标准误差σ∧ ANOVA a 模型 平方和 自由度 均方 F 显著性 1 回归 16.682 1 16.682 72.396 .000b 残差 1.843 8 .230 总计 18.525 9 a. 因变量:y b. 预测变量:(常量), x 由方差分析表可以得到回归标准误差:SSE=1.843 故回归标准误差: 2= 2SSE n σ∧-,2σ∧=0.48。 4.给出回归系数的置信度为95%的置信区间估计。

相关分析和一元线性回归分析SPSS报告

相关分析和一元线性回归分析SPSS报告

用下面的数据做相关分析和一元线性回归分析: 选用普通高等学校毕业生数和高等学校发表科技论文数量做相关分析和一元线性回归分析。 一、相关分析 1.作散点图

普通高等学校毕业生数和高等学校发表科技论文数量的相关图 从散点图可以看出:普通高等学校毕业生数和高等学校发表科技论文数量的相关性很大。 2.求普通高等学校毕业生数和高等学校发表科技论文数量的相关系 数

把要求的两个相关变量移至变量中,因为都是定距数据,选择相关系数中的Pearson,点击确定,可以得到下面的结果:

Correlations 普通高等学校毕业生数(万人) 高等学校发表科技论文数量(篇) 普通高等学校毕业生数(万人) Pearson Correlation 1 .998** Sig. (2-tailed) .000 N 14 14 高等学校发表科技论文数量(篇) Pearson Correlation .998** 1 Sig. (2-tailed) .000 N 14 14 **. Correlation is significant at the 0.01 level (2-tailed). 两相关变量的Pearson相关系数=0.0998,表示呈高度正相关;相关系数检验对应的概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性),即毕业生人数好发表科技论文数之间的相关性显著。 3.求两变量之间的相关性

选择相关系数中的全部,点击确定: Correlations (万人) (篇) Kendall's tau_b (万人) Correlation Coefficient 1.000 1.000** Sig. (2-tailed) . . N 14 14 (篇) Correlation Coefficient 1.000** 1.000 Sig. (2-tailed) . . N 14 14 Spearman's rho (万人) Correlation Coefficient 1.000 1.000** Sig. (2-tailed) . . N 14 14 (篇) Correlation Coefficient 1.000** 1.000 Sig. (2-tailed) . . N 14 14 **. Correlation is significant at the 0.01 level (2-tailed). 注解:两相关变量(毕业生数和发表论文数)的Kendall相关系数=1.000,呈正相关;无相关系数检验对应的概率P值,应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。 两相关变量(毕业生数和发表论文数)的Spearman相关系数=1.000,呈正相关;无相关系数检验对应的概率P值,应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。 4.普通高等学校毕业生数和高等学校发表科技论文数量的相关系数

一元线性回归模型实验报告

山东轻工业学院实验报告成绩 课程名称:计量经济学指导教师:刘海鹰实验日期: 2012年4月9日 院(系):商学院专业班级金融10-1 实验地点:机电楼B座5楼 学生姓名:张文奇学号: 201008021029 同组人无 实验项目名称:一元线性回归方程的预测 一、实验目的和要求 掌握利用 EViews 建立一元线性回归模型的方法,并且进行参数估计,对其结果进行相关分析以及未来形势的预测。 二、实验原理 一元线性回归模型的建立与参数估计及点预测、EViews 软件 三、主要仪器设备、试剂或材料 计算机、EViews 软件 四、实验方法与步骤 1、启动Eviews5软件,建立新的workfile. 在主菜单中选择【File】--【New】--【Workfile】,弹出Workfile Create对话框,在Workfile structure type中选择Dated-regular frequency,然后在Frequency 中选择annual,Start date中输入1980,End date中输入1998,点击OK按钮。 2、在主菜单上依次单击Quick→Empty Group。 3、建立一个空组,输入数据。 4、为每个时间序列取序列名。单击数据表中的SER01,在数据组对话框中的命令窗口输入该序列名称Y,回车后Yes。采用同样的步骤修改序列名X。数据输入操作完成。 5、数据输入完毕,单击工作文件窗口工具条的Save或单击菜单兰的File Save将数据存入磁盘,文件名为张文奇。 6、在主菜单上选Quick菜单,单击Estimate Equation项,屏幕出现Equation Specification估计对话框,在Estimation Settings中选OLS估计,即Least Squares,输入:Y C X(其中C为Eviews固定的截距项系数)。然后OK,出现方程窗口。Eviews的估计结果。如图一 7、单击工作文件框中Pros中的structure/resize current page,将样本空间从1980-1998扩展到1980-2000。然后编辑解释变量X。在Group数据框中输入变量X的1999年(1763元)和2000年(1863元)的数据。 8、在前面Equation对话框中选Forecast,将时间Sample定义在1980-2000,

多元线性回归实验报告

实验题目:多元线性回归、异方差、多重共线性 实验目的:掌握多元线性回归的最小二乘法,熟练运用Eviews软件的多元线性回归、异方差、多重共线性的操作,并能够对结果进行相应的分析。 实验内容:习题3.2,分析1994-2011年中国的出口货物总额(Y)、工业增加值(X2)、人民币汇率(X3),之间的相关性和差异性,并修正。 实验步骤: 1.建立出口货物总额计量经济模型: 错误!未找到引用源。(3.1) 1.1建立工作文件并录入数据,得到图1 图1 在“workfile"中按住”ctrl"键,点击“Y、X2、X3”,在双击菜单中点“open group”,出现数据 表。点”view/graph/line/ok”,形成线性图2。 图2 1.2对(3.1)采用OLS估计参数 在主界面命令框栏中输入ls y c x2 x3,然后回车,即可得到参数的估计结果,如图3所示。

图 3 根据图3中的数据,得到模型(3.1)的估计结果为 (8638.216)(0.012799)(9.776181) t=(-2.110573) (10.58454) (1.928512) 错误!未找到引用源。错误!未找到引用源。F=522.0976 从上回归结果可以看出,拟合优度很高,整体效果的F检验通过。但当错误!未找到引用源。=0.05时,错误!未找到引用源。=错误!未找到引用源。2.131.有重要变量X3的t检验不显著,可能存在严重的多重共线性。 2.多重共线性模型的识别 2.1计算解释变量x2、x3的简单相关系数矩阵。 点击Eviews主画面的顶部的Quick/Group Statistics/Correlatios弹出对话框在对话框中输入解释变量x2、x3,点击OK,即可得出相关系数矩阵(同图4)。 相关系数矩阵 图4 由图4相关系数矩阵可以看出,各解释变量相互之间的相关系数较高,证实解释变量之间存在多重共线性。 2.2多重共线性模型的修正

相关文档
最新文档