第六章 spss相关分析和回归分析
spss中相关与回归分析

定义变量:血红蛋白,贫血体征→Variables
20:41
16
建立数据文件:血红蛋 白的等级相关分析.sav.
定义变量 输入数据
开始分析
ቤተ መጻሕፍቲ ባይዱ
analyze →Correlate →Bivariate
定义变量:血 红蛋白,贫血 体征 →Variables
选择统计量: Correlation Coefficients →Spearman
20:41
34
主要结果
b Model Summary
Model 1
R .930a
R Sq uare .865
Adjusted R Sq uare .848
Std. Error of the Estimate 1.8528
a. Predictors: (Constant), 身 高 ( cm) b. Dependent Variable: 体 重 ( kg )
表 4 慢性支气管炎患者各年龄组疗效观察结果 疗效 年龄(岁) 11~ 20~ 30~ 40~ 50~ 合计 治愈 35 32 17 15 10 109 显效 1 8 13 10 11 43 好转 1 9 12 8 23 53 无效 3 2 2 2 5 14 合计 40 51 44 35 49 219
17
20:41
主要结果
Correlations 血 红 蛋 白 含 量 ( g/dl) 1.000 . 10 -.741* .014 10 贫 血 体 征 -.741* .014 10 1.000 . 10
Spearman's rho
血 红 蛋 白 含 量 ( g/dl)
SPSS软件的操作与应用第6讲 回归概念、回归系数

21
三、线性回归
5. SPSS操作及案例分析
结果分析: 从建立的散点图来看,自变量x和因变量y之间存在一定的线性关系,而且相 关程度较高。
22
三、线性回归
5. SPSS操作及案例分析
结果分析: (1) 变量进入/移出表(表1) Enter表示选定变量全部进入模型 (2) 模型综述表(表2) 相关系数R=0.916、判定系数R2=0.839、调整判定系数R2=0.830,说明变量之间 相关程度高,回归方程的拟合优度高。
18
三、线性回归
4. 线性回归方程的统计检验
(3)异方差分析 无论变量的取值如何变化,对应的残差分析的方差都应相等(齐性),否 则认为出现了异方差现象,异方差会导致回归系数的显著性检验出现较大偏 差。可以通过: 绘制残差图和等级相关分析来分析。 (4)探测样本中的异常值 异常值对回归方程影响较大,可以利用残差分析探测样本中的异常值, 加以排除。 对于探测因变量y中的异常值方法:标准化残差、学生化残差和剔除残 差。 对于探测自变量x中的异常值方法:杠杆值、库克距离、标准化回归系 数和标准化预测值的变化。
1 0 i 0
17
三、线性回归
4. 线性回归方程的统计检验 残差分析 残差是指由回归方程计算所得的预测值与实际样本值之间的差距。 残差分析是回归方程检验的重要组成部分,如果回归方程能够较 好地反映变量之间的变化规律,那么残差中不包含明显的规律性和趋 势性。 残差分析的主要内容
(1)残差均值为0的正态性分析 对应的残差有正负,但总体上应服从以0为均值的正态分布。可以通过 绘制标准化(或学生化)残差的累计概率图来分析。 (2)残差的独立性分析 回归方程要求前期和后期的残差数值之间不存在相关关系,即不存在自 相关。可以通过绘制残差的序列图、计算残差的自相关系数和DW(DurbinWatson)检验来分析
SPSS的相关分析和线性回归分析

• 如果两变量的正相关性较强,它们秩的变化具有同步性,于
是
n
Di2
n
(Ui
Vi)2的值较小,r趋向于1;
• i1
i1
如果两变量的正相关性较弱,它们秩的变化不具有同步性,
于是
n
n
Di2 (Ui Vi)2
的值较大,r趋向于0;
• i1
i1
在小样本下,在零假设成立时, Spearman等级相关系数
用最小二乘法求解方程中的两个参数,得到:
1
(xi x)(yi y) (xi x)2
0 ybx
多元线性回归模型
多元线性回归方程: y=β0+β1x1+β2x2+.+βkxk
β1、β2、βk为偏回归系数。 β1表示在其他自变量保持不变的情况下,自变量x1变动
一个单位所引起的因变量y的平均变动。
析功能子命令Bivariate过程、Partial过程、 Distances过程,分别对应着相关分析、偏相关分析和相 似性测度(距离)的三个spss过程。
Bivariate过程用于进行两个或多个变量间的相关分 析,如为多个变量,给出两两相关的分析结果。
Partial过程,当进行相关分析的两个变量的取值都受 到其他变量的影响时,就可以利用偏相关分析对其他变量 进行控制,输出控制其他变量影响后的偏相关系数。
• 回归分析的一般步骤
确定回归方程中的解释变量(自变量)和被解释变量( 因变量) 确定回归方程 对回归方程进行各种检验 利用回归方程进行预测
8.4.2 线性回归模型 一元线性回归模型的数学模型:
y0 1x
其中x为自变量;y为因变量; 0 为截距,即
常量; 1 为回归系数,表明自变量对因变量的影
数据统计分析软件SPSS的应用(五)——相关分析与回归分析

数据统计分析软件SPSS的应用(五)——相关分析与回归分析数据统计分析软件SPSS的应用(五)——相关分析与回归分析数据统计分析软件SPSS是目前应用广泛且非常强大的数据分析工具之一。
在前几篇文章中,我们介绍了SPSS的基本操作和一些常用的统计方法。
本篇文章将继续介绍SPSS中的相关分析与回归分析,这些方法是数据分析中非常重要且常用的。
一、相关分析相关分析是一种用于确定变量之间关系的统计方法。
SPSS提供了多种相关分析方法,如皮尔逊相关、斯皮尔曼相关等。
在进行相关分析之前,我们首先需要收集相应的数据,并确保数据符合正态分布的假设。
下面以皮尔逊相关为例,介绍SPSS 中的相关分析的步骤。
1. 打开SPSS软件并导入数据。
可以通过菜单栏中的“File”选项来导入数据文件,或者使用快捷键“Ctrl + O”。
2. 准备相关分析的变量。
选择菜单栏中的“Analyze”选项,然后选择“Correlate”子菜单中的“Bivariate”。
在弹出的对话框中,选择要进行相关分析的变量,并将它们添加到相应的框中。
3. 进行相关分析。
点击“OK”按钮后,SPSS会自动计算所选变量之间的相关系数,并将结果输出到分析结果窗口。
4. 解读相关分析结果。
SPSS会给出相关系数的值以及显著性水平。
相关系数的取值范围为-1到1,其中-1表示完全负相关,1表示完全正相关,0表示没有相关关系。
显著性水平一般取0.05,如果相关系数的显著性水平低于设定的显著性水平,则可以认为两个变量之间存在相关关系。
二、回归分析回归分析是一种用于探索因果关系的统计方法,广泛应用于预测和解释变量之间的关系。
SPSS提供了多种回归分析方法,如简单线性回归、多元线性回归等。
下面以简单线性回归为例,介绍SPSS中的回归分析的步骤。
1. 打开SPSS软件并导入数据。
同样可以通过菜单栏中的“File”选项来导入数据文件,或者使用快捷键“Ctrl + O”。
2. 准备回归分析的变量。
spss-回归分析和相关分析的区别

spss-回归分析和相关分析的区别回归分析和相关分析是互相补充、密切联系的,相关分析需要回归分析来表明现象数量关系的具体形式,而回归分析则应该建立在相关分析的基础上。
主要区别有:一,在回归分析中,不仅要根据变量的地位,作用不同区分出自变量和因变量,把因变量置于被解释的特殊地位,而且以因变量为随机变量,同时总假定自变量是非随机的可控变量.在相关分析中,变量间的地位是完全平等的,不仅无自变量和因变量之分,而且相关变量全是随机变量. 二,相关分析只限于描述变量间相互依存关系的密切程度,至于相关变量间的定量联系关系则无法明确反映.而回归分析不仅可以定量揭示自变量对应变量的影响大小,还可以通过回归方程对变量值进行预测和控制.相关分析与回归分析均为研究2个或多个变量间关联性的方法,但2种数理统计方法存在本质的差别,即它们用于不同的研究目的。
相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度),回归分析的目的则在于试图用自变量来预测因变量的值。
在相关分析中,两个变量必须同时都是随机变量,如果其中的一个变量不是随机变量,就不能进行相关分析,这是相关分析方法本身所决定的。
对于回归分析,其中的因变量肯定为随机变量(这是回归分析方法本身所决定的),而自变量则可以是普通变量(有确定的取值)也可以是随机变量。
在统计学教科书中习惯把相关与回归分开论述,其实在应用时,当两变量都是随机变量时,常需同时给出这两种方法分析的结果;如果自变量是普通变量,即模型Ⅰ回归分析,采用的回归方法就是最为常用的最小二乘法。
如果自变量是随机变量,即模型Ⅱ回归分析,所采用的回归方法与计算者的目的有关。
在以预测为目的的情况下,仍采用“最小二乘法”(但精度下降—最小二乘法是专为模型Ⅰ 设计的,未考虑自变量的随机误差);在以估值为目的(如计算可决系数、回归系数等)的情况下,应使用相对严谨的方法(如“主轴法”、“约化主轴法”或“Bartlett法” )。
相关分析和回归分析SPSS实现

相关分析与回归分析一、试验目标与要求本试验项目的目的是学习并使用SPSS软件进行相关分析与回归分析;具体包括:(1)皮尔逊pearson简单相关系数的计算与分析(2)学会在SPSS上实现一元及多元回归模型的计算与检验..(3)学会回归模型的散点图与样本方程图形..(4)学会对所计算结果进行统计分析说明..(5)要求试验前;了解回归分析的如下内容..参数α、β的估计回归模型的检验方法:回归系数β的显着性检验t-检验;回归方程显着性检验F-检验..二、试验原理1.相关分析的统计学原理相关分析使用某个指标来表明现象之间相互依存关系的密切程度..用来测度简单线性相关关系的系数是Pearson简单相关系数..2.回归分析的统计学原理相关关系不等于因果关系;要明确因果关系必须借助于回归分析..回归分析是研究两个变量或多个变量之间因果关系的统计方法..其基本思想是;在相关分析的基础上;对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定;确立一个合适的数据模型;以便从一个已知量推断另一个未知量..回归分析的主要任务就是根据样本数据估计参数;建立回归模型;对参数与模型进行检验与判断;并进行预测等..线性回归数学模型如下:在模型中;回归系数是未知的;可以在已有样本的基础上;使用最小二乘法对回归系数进行估计;得到如下的样本回归函数:回归模型中的参数估计出来之后;还必须对其进行检验..如果通过检验发现模型有缺陷;则必须回到模型的设定阶段或参数估计阶段;重新选择被解释变量与解释变量及其函数形式;或者对数据进行加工整理之后再次估计参数..回归模型的检验包括一级检验与二级检验..一级检验又叫统计学检验;它是利用统计学的抽样理论来检验样本回归方程的可靠性;具体又可以分为拟与优度评价与显着性检验;二级检验又称为经济计量学检验;它是对线性回归模型的假定条件能否得到满足进行检验;具体包括序列相关检验、异方差检验等..三、试验演示内容与步骤1.连续变量简单相关系数的计算与分析在上市公司财务分析中;常常利用资产收益率、净资产收益率、每股净收益与托宾Q值4个指标来衡量公司经营绩效..本试验利用SPSS对这4个指标的相关性进行检验..操作步骤与过程:打开数据文件“上市公司财务数据连续变量相关分析.sav”;依次选择“分析→相关→双变量”打开对话框如图;将待分析的4个指标移入右边的变量列表框内..其他均可选择默认项;单击ok提交系统运行..图5.1 Bivariate Correlations对话框结果分析:表给出了Pearson简单相关系数;相关检验t统计量对应的p值..相关系数右上角有两个星号表示相关系数在0.01的显着性水平下显着..从表中可以看出;每股收益、净资产收益率与总资产收益率3个指标之间的相关系数都在0.8以上;对应的p值都接近0;表示3个指标具有较强的正相关关系;而托宾Q值与其他3个变量之间的相关性较弱..表5.1 Pearson简单相关分析Correlations每股收益率净资产收益率资产收益率托宾Q值每股收益率PearsonCorrelation1.877.824-.073Sig.2-tailed..000.000.199N315315315315净资产收益率Pearson.8771.808-.001 CorrelationSig..000..000.983 2-tailedN315315315315资产收益率Pearson.824.8081.011 CorrelationSig..000.000..849 2-tailedN315315315315托宾Q值Pearson-.073-.001.0111 CorrelationSig..199.983.849.2-tailedN315315315315 Correlation is significant at the 0.01 level 2-tailed.2.一元线性回归分析实例分析:家庭住房支出与年收入的回归模型在这个例子里;考虑家庭年收入对住房支出的影响;建立的模型如下:其中;yi是住房支出;xi是年收入线性回归分析的基本步骤及结果分析:1绘制散点图打开数据文件;选择图形-旧对话框-散点/点状;如图5.2所示..图5.2 散点图对话框选择简单分布;单击定义;打开子对话框;选择X变量与Y变量;如图5.3所示..单击ok提交系统运行;结果见图5.4所示..图5.3 Simple Scatterplot 子对话框从图上可直观地看出住房支出与年收入之间存在线性相关关系..图5.4 散点图2简单相关分析选择分析—>相关—>双变量;打开对话框;将变量“住房支出”与“年收入”移入variables列表框;点击ok运行;结果如表5.2所示..表5.2 住房支出与年收入相关系数表CorrelationsCorrelation is significant at the 0.01 level 2-tailed.从表中可得到两变量之间的皮尔逊相关系数为0.966;双尾检验概率p值尾0.000<0.05;故变量之间显着相关..根据住房支出与年收入之间的散点图与相关分析显示;住房支出与年收入之间存在显着的正相关关系..在此前提下进一步进行回归分析;建立一元线性回归方程..3 线性回归分析步骤1:选择菜单“分析—>回归—>线性”;打开Linear Regression 对话框..将变量住房支出y移入Dependent列表框中;将年收入x移入Independents列表框中..在Method 框中选择Enter 选项;表示所选自变量全部进入回归模型..图5.5 Linear Regresssion对话框步骤2:单击Statistics按钮;如图在Statistics子对话框..该对话框中设置要输出的统计量..这里选中估计、模型拟合度复选框..图5.6 Statistics子对话框估计:输出有关回归系数的统计量;包括回归系数、回归系数的标准差、标准化的回归系数、t统计量及其对应的p值等..置信区间:输出每个回归系数的95%的置信度估计区间..协方差矩阵:输出解释变量的相关系数矩阵与协差阵..模型拟合度:输出可决系数、调整的可决系数、回归方程的标准误差、回归方程F检验的方差分析..步骤3:单击绘制按钮;在Plots子对话框中的标准化残差图选项栏中选中正态概率图复选框;以便对残差的正态性进行分析..图5.7 plots子对话框步骤4:单击保存按钮;在Save子对话框中残差选项栏中选中未标准化复选框;这样可以在数据文件中生成一个变量名尾res_1 的残差变量;以便对残差进行进一步分析..图5.8 Save子对话框其余保持Spss默认选项..在主对话框中单击ok按钮;执行线性回归命令;其结果如下:表5.3给出了回归模型的拟与优度R Square、调整的拟与优度Adjusted R Square、估计标准差Std. Error of the Estimate以及Durbin-Watson统计量..从结果来看;回归的可决系数与调整的可决系数分别为0.934与0.93;即住房支出的90%以上的变动都可以被该模型所解释;拟与优度较高..表5.4给出了回归模型的方差分析表;可以看到;F统计量为252.722;对应的p值为0;所以;拒绝模型整体不显着的原假设;即该模型的整体是显着的..表5.5给出了回归系数、回归系数的标准差、标准化的回归系数值以及各个回归系数的显着性t检验..从表中可以看到无论是常数项还是解释变量x;其t统计量对应的p值都小于显着性水平0.05;因此;在0.05的显着性水平下都通过了t检验..变量x的回归系数为0.237;即年收入每增加1千美元;住房支出就增加0.237千美元..表5.3 回归模型拟与优度评价及Durbin-Watson检验结果Model Summaryba Predictors: Constant;年收入千美元b Dependent Variable:住房支出千美元表5.4 方差分析表ANOVAba Predictors: Constant; 年收入千美元b Dependent Variable: 住房支出千美元表5.5 回归系数估计及其显着性检验Coefficientsaa Dependent Variable: 住房支出千美元为了判断随机扰动项是否服从正态分布;观察图5.9所示的标准化残差的P-P图;可以发现;各观测的散点基本上都分布在对角线上;据此可以初步判断残差服从正态分布..为了判断随机扰动项是否存在异方差;根据被解释变量y与解释变量x的散点图;如图5.4所示;从图中可以看到;随着解释变量x的增大;被解释变量的波动幅度明显增大;说明随机扰动项可能存在比较严重的异方差问题;应该利用加权最小二乘法等方法对模型进行修正..图5.9 标准化残差的P-P图四、备择试验现有1987~2003年湖南省全社会固定资产投资总额NINV与GDP两个指标的年度数据;见下表..试研究全社会固定资产投资总额与GDP的数量关系;并建立全社会固定资产投资总额与GDP之间的线性回归方程..。
SPSS直线回归与相关分析

Kendall's tau-b 计算 Kendall‘s 等级相关系数。这 是一个用于反映分类变量一致性的指标,只能在两个变量均属 于有序分类时使用。
Spearman计算Spearman相关系数,即最常用的非参数相 关分析(秩相关)
煤气户数 (万户)
25.68 25.77 25.88 27.43 29.95 33.53 37.31 41.16 45.73 50.59 58.82 65.28 71.25 73.37 76.68
卷烟销量 (百箱)
蚊香销量 打火石销量 (十万盒) (百万粒)
23.6
10.1
4.18
23.42
Байду номын сангаас
13.31
相关分析与回归模型的建立与分析
1
相关分析
在SPSS中,可以通过Analyze菜单进行相关分析(Correlate),Correlate菜单如图所示。
2
简单相关分析 两个变量之间的相关关系称简单相关关系。有两种 方法可以反映简单相关关系。一是通过散点图直观地 显示变量之间关系,二是通过相关系数准确地反映两 变量的关系程度。
例2:为了考察火柴销售量的影响因素,选择煤气户数、卷 烟销量、蚊香销量、打火石销量作为影响因素,得数据表。试 求火柴销售量与煤气户数的偏相关系数.
10
表 火柴销量及影响因素表
年份 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82
火柴销售量 (万件)
23.69 24.1 22.74 17.84 18.27 20.29 22.61 26.71 31.19 30.5 29.63 29.69 29.25 31.05 32.28
SPSS统计分析_第六章_回归分析1

进行共线性论断常用的参数有
(l)容许度(Tolerance) 在只有两个自变量的情况下,自变量X1与X2之间共 线性体现在两变量间相关系数r12上。精确共线性时
对应r122=1,当它们之间不存在共线性时r122=0。
r122越接近于1,共线性越强。 多于两个自变量的情况, Xi与其他自变量X之间的复
线形趋势:自变量与因变量的关系是线形的,如果不 是,则不能采用线性回归来分析。 独立性:可表述为因变量y的取值相互独立,它们之 间没有联系。反映到模型中,实际上就是要求残差间 相互独立,不存在自相关。 正态性:自变量x的任何一个线形组合,因变量y均服 从正态分布,反映到模型中,实际上就是要求随机误 差项εi服从正态分布。 方差齐性:自变量的任何一个线形组合,因变量y的 方差均齐性,实质就是要求残差的方差齐。
2、一元线性回归方程的检验
检验的假设是总体回归系数为0。另外要检验回归方 程对因变量的预测效果如何。 (1)回归系数的显著性检验
对斜率的检验,假设是:总体回归系数为0。检验该
假设的t值计算公式是;t=b/SEb,其中SEb是回归系 数的标准误。
对截距的检验,假设是:总体回归方程截距a=0。检
2.多元线性回归分析中的参数
(l)复相关系数 R 复相关系数表示因变量 xi 与他的自变量y之间
线性相关密切程度的指标,复相关系数使用
字母R表示。 复相关系数的取值范围在0-1之间。其值越 接近1表示其线性关系越强,越接近0表示线 性关系越差。
(2)R2判定系数与经调整的判定系数
与一元回归方程相同,在多元回归中也使用判定系数
验该假设的t值计算公式是: t=a/SEa,其中SEa是截 距的标准误。
(2) R2判定系数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章SPSS 相关分析与回归分析6.1 相关分析和回归分析概述客观事物之间的关系大致可归纳为两大类,即● 函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的关系。
● 相关关系(统计关系):指两事物之间的一种非一一对应的关系,例如家庭收入和支出、子女身高和父母身高之间的关系等。
相关关系又分为线性相关和非线性相关。
相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。
6.2 相关分析相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。
6.2.1 散点图它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。
6.2.2 相关系数利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤: 第一,计算样本相关系数r ;● 相关系数r 的取值在-1~+1之间● R>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关系● R =1表示两变量存在完全正相关;r =-1表示两变量存在完全负相关;r =0表示两变量不相关● |r|>0.8表示两变量有较强的线性关系; |r|<0.3表示两变量之间的线性关系较弱第二,对样本来自的两总体是否存在显著的线性关系进行推断。
对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson 简单相关系数、Spearman 等级相关系数和Kendall τ 相关系数等。
6.2.2.1 Pearson 简单相关系数(适用于两个变量都是数值型的数据)∑∑∑-∙---=22)()()()(yy x x y y x x iiiirPearson 简单相关系数的检验统计量为:221r n t r -=-6.2.2.2 Spearman 等级相关系数Spearman 等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson 简单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据 (,)i i x y ,而是利用数据的秩,用两变量的秩 (,)i i U V 代替(,)i i x y 代入Pearson 简单相关系数计算公式中,于是其中的ix 和i y 的取值范围被限制在1和n 之间,且可被简化为:222i 21161()(1)n ni i i i i D r D U V n n ===-=--∑∑∑,其中● 如果两变量的正相关性较强,它们秩的变化具有同步性,于是22i 11()nni i i i D U V ===-∑∑的值较小,r 趋向于1;● 如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是22i11()n nii i i D UV ===-∑∑的值较大,r 趋向于0;● 在小样本下,在零假设成立时, Spearman 等级相关系数服从Spearman 分布;在大样本下, Spearman 等级相关系数的检验统计量为Z 统计量,定义为:1Z r n =-Z 统计量近似服从标准正态分布。
6.2.3 计算相关系数的基本操作相关分析用于描述两个变量间关系的密切程度,其特点是变量不分主次,被置于同等的地位。
● 在Analyze 的下拉菜单Correlate 命令项中有三个相关分析功能子命令Bivariate 过程、Partial 过程、 Distances 过程,分别对应着相关分析、偏相关分析和相似性测度(距离)的三个spss 过程。
● Bivariate 过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。
● Partial 过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。
● Distances 过程用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,而作为聚类分析和因子分析等的预分析。
Bivariate 相关分析步骤(1)选择菜单Analyze -Correlate -Bivariate ,出现窗口:(2)把参加计算相关系数的变量选到Variables框。
(3)在Correlation Coefficents框中选择计算哪种相关系数。
(4)在Test of Significance框中选择输出相关系数检验的双边(Two-Tailed)概率p值或单边(One-Tailed)概率p值。
(5)选中Flag significance correlation选项表示分析结果中除显示统计检验的概率p值外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。
(6)在Option按钮中的Statistics选项中,选中Cross-product deviations and covariances表示输出两变量的离差平方和协方差。
6.2.4 相关分析应用举例为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收集1999年31个省市自治区部分高校有关社科研究方面的数据,研究立项课题数(当年)与投入的具有高级职称的人年数(当年)、发表的论文数(上年)之间是否具有较强的线性关系。
对该问题的研究可以采用相关分析的方法,首先可绘制矩阵散点图;其次可以计算Pearson简单相关系数。
6.3 线性回归分析6.3.1线性回归分析概述线性回归分析的内容●能否找到一个线性组合来说明一组自变量和因变量的关系●如果能的话,这种关系的强度有多大,也就是利用自变量的线性组合来预测因变量的能力有多强●整体解释能力是否具有统计上的显著性意义●在整体解释能力显著的情况下,哪些自变量有显著意义回归分析的一般步骤●确定回归方程中的解释变量(自变量)和被解释变量(因变量)●确定回归方程●对回归方程进行各种检验●利用回归方程进行预测6.3.2 线性回归模型一元线性回归模型的数学模型:其中x 为自变量;y 为因变量;0β为截距,即常量;1β为回归系数,表明自变量对因变量的影响程度。
用最小二乘法求解方程中的两个参数,得到:∑∑---=21)())((x x y y x x iiiβxb y -=0β多元线性回归模型 多元线性回归方程:● β1、β2、βk 为偏回归系数。
● β1表示在其他自变量保持不变的情况下,自变量x1变动一个单位所引起的因变量y 的平均变动。
6.3.3 线性回归方程的统计检验 6.3.3.1回归方程的拟合优度回归直线与各观测点的接近程度称为回归方程的拟合优度,也就是样本观测值聚集在回归线周围的紧密程度 。
1、离差平方和的分解:建立直线回归方程可知:y 的观测值的总变动可由 2)(∑-y y 来反映,称为总变差。
引起总变差的原因有两个:● 由于x 的取值不同,使得与x 有线性关系的y 值不同; ● 随机因素的影响。
bxa y +=ˆxyy)(0y y -)ˆ(0y y -)ˆ(y y -xy 10ββ+=kk xx x y ββββ++++= 22110总离差平方和可分解为()()()∑∑∑-+-=-222yy y y y y即:总离差平方和(SST)=剩余离差平方和(SST) +回归离差平方和(SSR)其中;SSR 是由x 和y 的直线回归关系引起的,可以由回归直线做出解释;SSE 是除了x 对y 的线性影响之外的随机因素所引起的Y 的变动,是回归直线所不能解释的。
2、可决系数(判定系数、决定系数)回归平方和在总离差平方和中所占的比例可以作为一个统计指标,用来衡量X 与Y 的关系密切程度以及回归直线的代表性好坏,称为可决系数。
对于一元线性回归方程:()()()()∑∑∑∑---=--=-=-==22222211yy y y y y y y R SST SSE SSTSSESST SST SSR R对于多元线性回归方程:1/1/1122----=-=n SST p n SSE RSSTSSE R在多元线性回归分析中,引起判定系数增加的原因有两个:一个是方程中的解释变量个数增多,另一个是方程中引入了对被解释变量有重要影响的解释变量。
如果某个自变量引入方程后对因变量的线性解释有重要贡献,那么必然会使误差平方和显著减小,并使平均的误差平方和也显著减小,从而使调整的判定系数提高。
所以在多元线性回归分析中,调整的判定系数比判定系数更能准确的反映回归方程的拟合优度。
6.3.3.2回归方程的显著性检验(方差分析F 检验)回归方程的显著性检验是要检验被解释变量与所有的解释变量之间的线性关系是否显著。
对于一元线性回归方程,检验统计量为:),(21~)2/()ˆ(1/)ˆ()2/(1/22----=-=∑∑n F n yy y yn SSE SSR F对于多元线性回归方程,检验统计量为:),(1p ~)1/()ˆ(/)ˆ()1/(/22------=--=∑∑p n F p n yy py yp n SSE pSSR F6.3.3.3回归系数的显著性检验(t 检验)回归系数的显著性检验是要检验回归方程中被解释变量与每一个解释变量之间的线性关系是否显著。
对于一元线性回归方程,检验统计量为:2)ˆ()2(~)(221--==--=∑∑n y y S n t x x t ii y iσσβ其中,对于多元线性回归方程,检验统计量为:1)ˆ()1(~)(22---==---=∑∑p n y y S p n t x x t ii y iij ii σσβ其中,6.3.3.4残差分析残差是指由回归方程计算得到的预测值与实际样本值之间的差距,定义为:)...(ˆ22110p p i i i i x x x y yy e ββββ++++-=-=对于线性回归分析来讲,如果方程能够较好的反映被解释变量的特征和规律性,那么残差序列中应不包含明显的规律性。
残差分析包括以下内容:残差服从正态分布,其平均值等于0;残差取值与X 的取值无关;残差不存在自相关;残差方差相等。
1、对于残差均值和方差齐性检验可以利用残差图进行分析。
如果残差均值为零,残差图的点应该在纵坐标为0的中心的带状区域中随机散落。
如果残差的方差随着解释变量值(或被解释变量值)的增加呈有规律的变化趋势,则出现了异方差现象。
2、DW 检验。
DW 检验用来检验残差的自相关。
检验统计量为:DW=2表示无自相关,在0-2之间说明存在正自相关,在2-4之间说明存在负的自相关。
一般情况下,DW 值在1.5-2.5之间即可说明无自相关现象。
)1(2)(22221ρ-≈-=∑∑==-nt tnt t tee eDW6.3.3.5多重共线性分析多重共线性是指解释变量之间存在线性相关关系的现象。
测度多重共线性一般有以下方式:1、容忍度:21ii R Tol -=其中,2i R 是第i 个解释变量与方程中其他解释变量间的复相关系数的平方,表示解释变量之间的线性相关程度。